Spark从kafka中读取数据，Direct Approach相较于Receiver-based Approach方式的区别

最新推荐文章于 2022-02-18 14:38:50 发布

蓦然_

最新推荐文章于 2022-02-18 14:38:50 发布

阅读量377

点赞数

分类专栏： Spark Kafka 文章标签： Direct Approach相较于Receiver-bas Spark从kafka中读取数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41544550/article/details/97248751

版权

Spark 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

1、简化的并行：

在Receiver的方式中我们提到创建多个Receiver之后利用union来合并成一个Dstream的方式提高数据传输并行度。而在Direct方式中，Kafka中的partition与RDD中的partition是一一对应的并行读取Kafka数据，这种映射关系也更利于理解和优化。

2、高效：

在Receiver的方式中，为了达到0数据丢失需要将数据存入Write Ahead Log中，这样在Kafka和日志中就保存了两份数据，浪费！而第一种方式不存在这个问题，只要我们Kafka的数据保留时间足够长，我们都能够从Kafka进行数据恢复。

3、精确一次：

在Receiver的方式中，使用的是Kafka的高阶API接口从Zookeeper中获取offset值，这也是传统的从Kafka中读取数据的方式，但由于Spark Streaming消费的数据和Zookeeper中记录的offset不同步，这种方式偶尔会造成数据重复消费。而第一种方式，直接使用了简单的低阶Kafka API，Offsets则利用Spark Streaming的checkpoints进行记录，消除了这种不一致性。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark从kafka中读取数据，Direct Approach相较于Receiver-based Approach方式的区别

1、简化的并行：在Receiver的方式中我们提到创建多个Receiver之后利用union来合并成一个Dstream的方式提高数据传输并行度。而在Direct方式中，Kafka中的partition与RDD中的partition是一一对应的并行读取Kafka数据，这种映射关系也更利于理解和优化。2、高效：在Receiver的方式中，为了达到0数据丢失需要将数据存入Write Ahea...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。