sparkstreaming数据丢失和重复消费问题

最新推荐文章于 2023-07-25 13:40:49 发布

太晚了困

最新推荐文章于 2023-07-25 13:40:49 发布

阅读量1.4k

点赞数 1

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_Inertia/article/details/104944349

版权

本文总结了SparkStreaming在receiver模式和direct模式下数据丢失和重复消费问题，包括问题原因、解决方案以及其他的优化点。针对数据丢失，提出了启用WAL机制、使用direct模式和手动管理偏移量的方法。在数据重复消费方面，提出利用内存数据库记录处理状态和事务控制等策略。此外，文章还讨论了优化策略，如采用direct模式、基于SparkCore的优化、任务启动优化和内存调优等。

摘要由CSDN通过智能技术生成

sparkstreaming优化总结

一方面关于数据丢失和重复消费问题

1.数据丢失问题

receiver模式：

（该部分比较简单，可以跳过）

丢失原因：

首先，receiver task 接收 kafka 中的数据，并备份到其他 executor 中的blockmanager里，然后将偏移量提交给 zookeeper ,接着存在备份的 executor 将数据的地址封装并发送到 driver 中的 receiver tracker，然后由 driver 发送 task ，以及监测任务执行和回收结果。

在这个过程中，如果数据已经提交到了 zookeeper ，此时，driver 挂了，executor 也会被 kill 掉，当 driver 重启时，内存中就没有数据的地址信息了，而且kafka 会从新的偏移量处发送数据，即发生数据丢失。

解决方案：

开启 WAL 机制，在数据备份的时候，同时将数据拷贝一份到 hdfs ，等数据备份完成之后，再提交偏移量。同时，driver启动时，如果 hdfs 上存在未消费的数据，则先消费该数据。

这样，即使zookeeper 提交偏移量之后 driver 挂了，当driver重启之后，依旧能从hdfs 上消费数据。

存在问题：

开启WAL机制可能导致数据重复消费等问题。

direct模式：

sparkstreaming 2.2 direct 模式采用的是kafka的 simple consumer api，该情况下，偏移量可以手动管理，只要保证数据都消费之后再提交偏移量，就不存在数据丢失问题。

2.数据重复消费问题：

receiver模式：

原因：

开启 WAL 机制后，如果数据成功备份到 hdfs 之后，driver 挂了，此时偏移量还未提交给 zookeeper，重启时，

driver会先消费 hdfs 中的数据，由于偏移量未提交，该数据会再次接收并消费。

解决方案：

以Receiver基于ZooKeeper的方式，当读取数据时去访问Kafka的元数据信息，在处理代码中例如foreachRDD或
transform时，将信息写入到内存数据库中(memoryS

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。