spark streaming 提交offset不是你想的那样

最新推荐文章于 2022-11-26 20:01:44 发布

VIP文章 jokelyli

最新推荐文章于 2022-11-26 20:01:44 发布

阅读量1.5k

点赞数

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/jokelylijunjiang/article/details/105251409

版权

背景：

需要用streaming+kafka消费一批数据，数据处理的过程中可能会有一些问题，导致没有消费成功，所以想记录每个分区消费的offset，在创建createDirectStream的时候指定offset。

测试过程中发现除了第一次指定的offset生效外，后续依然会从untilOffset消费，并非自己手动提交的offset位置。通过扒源码发现是自己对offset的理解错误了。streaming只有在第一次创建directStream的时候会使用指定的offset，后续会从每批次的untilOffset去消费。所以正确的使用场景是streaming程序崩溃或者机器重启，需要记录上次消费的offset，当重启消费时能够从指定的offset消费。

首先看下commit方法，跟进commitAsync的实现我们可以发现，DirectKafkaInputDStream内部维护了一个offset的提交队列，commitAsync会将offset提交到队列中，是异步的，只有当下次拉取时，才会将队列中的offset进行commit。

/**
   * Queue up offset ranges for commit to Kafka at a future time.  Threadsafe.
   * @param offsetRanges The maximum untilOffset for a given partition will be used at commit.
   * @param callback Only the most recently provided callback will be used at commit.
   */
  def commitAsync(offsetRanges: Array[OffsetRange], callback: OffsetCommitCallback)

最低0.47元/天解锁文章

jokelyli

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark streaming 提交offset不是你想的那样

背景：需要用streaming+kafka消费一批数据，数据处理的过程中可能会有一些问题，导致没有消费成功，所以想记录每个分区消费的offset，在创建createDirectStream的时候指定offset。测试过程中发现除了第一次指定的offset生效外，后续依然会从untilOffset消费，并非自己手动提交的offset位置。通过扒源码发现是自己对offset的理解...
复制链接

扫一扫