sparkStream基于kafka源连接

最新推荐文章于 2023-01-15 10:53:22 发布

mn_kw

最新推荐文章于 2023-01-15 10:53:22 发布

阅读量535

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mn_kw/article/details/81873189

版权

spark 专栏收录该内容

80 篇文章 1 订阅

订阅专栏

基于Direct方式

这种方式周期性地查询Kafka，来获得每个topic+partition的最新的offset,从而定义每个batch的offset的范围。

这种方式有以下优点：

1. 简化并行读取：如果要读取多个partition,不需要创建多个DStream，然后对他们进行union操作，spark会创建和kafka partition一样多的RDD partition，并且会并行的从Kafka中读取数据，所以在Kafka partition和RDD partition之间，有一个一对一的映射关系。

2. 高性能：如果要保证零数据丢失，在基于receiver的方式中，需要开启WAL机制，这种方式其实效率地下，因为数据实际上被复制了倆份，kafka自己本身就有高可靠的机制，会对数据复制一份，而这里又会复制一份到WAL,而基于direct方式，不依赖Receiver,不需要开启WAL机制，只要Kafka中做了数据的复制，那么就可以通过kafka的副本进行恢复

3. 一次且仅一次的事务机制

基于receiver的方式，是使用Kafka的高阶API来在Zookeeper中保存消费过的offset的。这是消费Kafka的传统方式，这种方式配合着WAL机制可以保证数据零丢失的高可靠性，但是却无法保证数据被处理一次且仅一次，可能会处理俩次，因为Spark和Zookeeper可能是不同步的

基于direct的方式，使用kafka的简单api，Spark Streaming自己就负者追踪消费的offset，并保存在checkpoint中，saprk自己一定是同步的，因此可以保证数据消费仅一次

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
sparkStream基于kafka源连接

基于Direct方式这种方式周期性地查询Kafka，来获得每个topic+partition的最新的offset,从而定义每个batch的offset的范围。这种方式有以下优点：1. 简化并行读取：如果要读取多个partition,不需要创建多个DStream，然后对他们进行union操作，spark会创建和kafka partition一样多的RDD partition，并且会...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。