Spark Streaming管理Kafka偏移量

最新推荐文章于 2024-08-25 15:46:27 发布

大写的UFO

最新推荐文章于 2024-08-25 15:46:27 发布

阅读量2.1k

点赞数

分类专栏： spark 文章标签： spark spark-streaming kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UUfFO/article/details/78108016

版权

本文探讨了如何在Spark Streaming中管理Kafka偏移量，避免数据丢失。虽然Spark Streaming提供checkpoints功能，但可靠性有限。文章建议手动将offset存储到Zookeeper，以实现更精细的控制。内容包括从ZK获取offset的步骤，创建DStream的注意事项，以及处理RDD和保存Offset的过程。

摘要由CSDN通过智能技术生成

前言

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

但是，Spark Streaming checkpoints在应用程序挂掉或者重启无法恢复，因此不是非常可靠，特别是如果您将此机制用于关键生产应用程序，另外，基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper，完全自我掌控offset。

从ZK获取offset

创建ZKClient，API有好几个，最后用带序列化参数的，不然保存offset的时候容易出现乱码。

这里写图片描述

查看该groupId在该topic下是否有消费记录，如果有，肯定在对应目录下会有分区数，children大于0则有记录。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大写的UFO CSDN认证博客专家 CSDN认证企业博客

码龄10年

35: 原创

24万+: 周排名

125万+: 总排名

7万+: 访问

: 等级

1176: 积分

39: 粉丝

25: 获赞

21: 评论

69: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于spark sql引擎的即席查询服务
春_: 请问，可以本地启动吗？我尝试本地启动engine启动总是报错要设置master，尝试setConfig也还是会出现一样的错误
Spark 实现MySQL update操作
huihuixia123: 您好，问一下对应的是spark 的哪个jar呢
Elasticsearch5.6搭建及拼音中文混合搜索实现
qq_18403089: 你这写的好简单
[Spark SQL] 主要执行流程
风流少年: 666
[spark] 数据本地化及延迟调度
高亮: 您好大神，看了您的延迟调度策略后，有一个问题久久想不明白，所以想向您请教：在getAllowedLocalityLevel方法中，当PROCESS_LOCAL本地性没有任务可以执行时，代码块里面有这样一句话：lastLaunchTime = curTime 那么当NODE_LOCAL有任务执行时，因为lastLaunchTime = curTime 所以curTime - lastLaunchTime 一定小于等待时间(等于0)所以会返回NODE_LOCAL本地性，更大的问题是，哪怕是NODE_LOCAL都执行完了，只要走这个延迟调度策略方法，case TaskLocality.PROCESS_LOCAL => moreTasksToRunIn(pendingTasksForExecutor) 一定是false还是会走lastLaunchTime = curTime代码块，最终一直返回的本地性都是NODE_LOCAL，所以这里一直想不明白，想请教高人，如能解答万分感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。