Spark Streaming 和kafka 集成指导（kafka 0.8.2.1 或以上版本）

最新推荐文章于 2024-04-08 10:17:26 发布

街北槐花

最新推荐文章于 2024-04-08 10:17:26 发布

阅读量4k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/pengchengqing/article/details/79020593

版权

本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法：1、老的方法 -使用Receivers 和kafka的高级API2、新的方法（ Spark 1.3 开始引入）-不适用Receivers。这两个方式拥有不同的编程模型，性能特征和语义保证，为了获得更多细节，继续往下读。对于目前的版本的spark。这两个方式都是稳定的。方法1 基于Receiver

摘要由CSDN通过智能技术生成

本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法：
1、老的方法 -使用Receivers 和kafka的高级API
2、新的方法（ Spark 1.3 开始引入）-不适用Receivers。这两个方式拥有不同的编程模型，性能特征和语义保证，为了获得更多细节，继续往下读。对于目前的版本的spark。这两个方式都是稳定的。

方法1 基于Receiver的方式

这个方法使用了一个Receiver 接收数据。这个Receiver 是用kafka 高级的 consumer的api实现的。对于所有的receiver，通过Receiver 接收的kafka的数据会被存储到Spark的executors，然后 Spark Streaming 启动jobs处理数据。
然而默认配置下，这个方式在失败的情况下回丢失数据（参考 receiver reliability.
）。为了保证零数据丢失，你必须在Spark Streaming (introduced in Spark 1.2)额外的开启Write Ahead Logs。这会同步的把接受的到kafka的数据写入到分布式系统（比如 HDFS） ahead logs 中，因此所有的数据都可以在失败的时候进行恢复。参考 Deploying section
以获取更多的关于 Write Ahead Logs.的信息。

下面，我们讨论下如何在你的streaming的应用中使用这个方法。
1、Linking: 对于Scala/Java 应用使用SBT/MAven的项目定义，连接到你的streaming的应用使用如下的artifact。

groupId = org.apache.spa

最低0.47元/天解锁文章

街北槐花

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming 和kafka 集成指导（kafka 0.8.2.1 或以上版本）

本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法：1、老的方法 -使用Receivers 和kafka的高级API2、新的方法（ Spark 1.3 开始引入）-不适用Receivers。这两个方式拥有不同的编程模型，性能特征和语义保证，为了获得更多细节，继续往下读。对于目前的版本的spark。这两个方式都是稳定的。方法1 基于Receiver
复制链接

扫一扫