spark两种kafka偏移量维护方式

最新推荐文章于 2022-10-12 22:42:41 发布

tydhot

最新推荐文章于 2022-10-12 22:42:41 发布

阅读量1.4k

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40318210/article/details/104528501

版权

spark 专栏收录该内容

27 篇文章 2 订阅

订阅专栏

1.spark可以通过checkpoint的方式来维护kafka的偏移量，配置简单，只需要配置checkpoint的路径就可以完成偏移量的维护，如果本身spark业务就采用了state状态，那么既不需要额外配置即可确保偏移量的维护。

原理：spark会将kafka spark straming处理的topic以及对应消费偏移量持久化到文件当中，当spark任务崩溃后，保存在持久化文件的偏移量将会通过反序列化得到，达到继续崩溃前的偏移量继续消费的目的。

优点：配置方便，几乎不需要额外的代码量。

缺点：本身不需要state的任务会有一些额外要注意的点，广播变量在恢复的时候需要重新广播，否则再重新访问时将会直接崩溃。同一批数据如果存在问题没有正常trycatch，再下次恢复重启后将会直接跳过该批数据，对数据的质量存在一定风险。Spark一些配置修改之后，需要删除checkpoint目录才能起作用，也会导致偏移量的失去。环境中的kafka如果被清空，也需要删除kafka目录，否则无法恢复。

2.spark在010的kafka api中给出了异步提交偏移量的接口，可以通过将偏移量提交的方式来维护偏移量在kafka上。

原理：在kafka stream每批rdd生成的compute()方法中，将会在末尾异步提交之前的偏移量到kafka上，而发送的具体偏移量是在rdd处理的末尾通过commitAsync()提交到stream的。

优点：可以规避checkpoint带来的一些约束，修改配置不需要删除checkpoint文件也不会导致偏移量的丢失，环境中的kafka被清空只需要简单重启就能解决。

缺点：对代码的编写规范具有要求，如果任务的try catch不全面将会导致无法规避掉的崩溃问题，只有修改代码或者更换groupid能够解决。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark两种kafka偏移量维护方式

1.spark可以通过checkpoint的方式来维护kafka的偏移量，配置简单，只需要配置checkpoint的路径就可以完成偏移量的维护，如果本身spark业务就采用了state状态，那么既不需要额外配置即可确保偏移量的维护。原理：spark会将kafka spark straming处理的topic以及对应消费偏移量持久化到文件当中，当spark任务崩溃后，保存在持久化文件的偏移量将会...
复制链接

扫一扫

专栏目录

tydhot CSDN认证博客专家 CSDN认证企业博客

码龄7年

杭州笨马网络技术有限公司

176: 原创

5万+: 周排名

206万+: 总排名

32万+: 访问

: 等级

4335: 积分

90: 粉丝

59: 获赞

64: 评论

190: 收藏

私信

关注

热门文章

分类专栏

最新评论

flink中akka的使用以jobClient提交任务为例子
Antoni_cy: 这个是那个版本的flink呀
java8中stream中的任务拆分
Tisfy: 时间久有点忘了
java8中stream中的任务拆分
KLAY_: 我怎么没看懂，最后是怎么分的
caffeine 时间轮的实现
闲鱼笔记: timerWheel().reschedule(node); 根据该元素的剩余过期时间重新加入到时间轮中关于这里我想请教一下，加入了时间轮，我看了代码，在读或者写时判断过期后会调用expireEntries会去触发timerWheel().advance(now); 1. 当前元素过期会把其他已过期元素删除吗？
Golang sync.pool对象池
大家一起学编程（python）: 评论一波

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。