kafka auto.offset.reset值含义解释以及代码测试

最新推荐文章于 2024-05-22 10:16:08 发布

BigDataMLApplication

最新推荐文章于 2024-05-22 10:16:08 发布

阅读量1.4k

点赞数 2

分类专栏：流数据处理#大数据文章标签： kafka offset 参数配置

本文链接：https://blog.csdn.net/wang2leee/article/details/87902992

版权

流数据处理#大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

kafka订阅消费数据过程需要配置的常见参数有bootstrap.servers，group.id，auto.commit.enable，auto.offset.reset等参数（kafka 0.9+使用Java Consumer替代了老版本的scala Consumer）。

参数含义
（1）bootstrap.servers
在启动consumer时配置的broker地址的。它配置的格式是：host1:port1;host2:port2…

（2）key.descrializer、value.descrializer

Message record 的key, value的反序列化类。

（3）group.id

用于表示该consumer想要加入到哪个group中。默认值是 “”。

（4）enable.auto.commit

Consumer 在commit offset时有两种模式：自动提交，手动提交。手动提交在前面已经说过。自动提交：是Kafka Consumer会在后台周期性的去commit。

默认值是true。

（4）auto.commit.interval.ms
自动提交间隔。范围：[0,Integer.MAX]，默认值是 5000 （5 s）

（5）auto.offset.reset
这个配置项，是告诉Kafka Broker在发现kafka在没有初始offset，或者当前的offset是一个不存在的值（如果一个record被删除，就肯定不存在了）时，该如何处理。它有4种处理方式：

1） earliest：自动重置到最早的offset。

2） latest：看上去重置到最晚的offset。

3） none：如果边更早的offset也没有的话，就抛出异常给consumer，告诉consumer在整个consumer group中都没有发现有这样的offset。

4）如果不是上述3种，只抛出异常给consumer。

默认值是latest。

提交offset
kafka对于同一组内的不同消费者是不能重复消费的，它是怎么做到的呢？即当一个consumer因某种原因退出Group时，同一group中的另一个consumer再读取该partition时，怎么能够知道上一个consumer该从哪个offset的message读取呢？为了做到这一点，当使用完poll从本地缓存拉取到数据之后，需要client调用commitSync方法（或者commitAsync方法）去commit 下一次该去读取哪一个offset的message。而这个commit方法会通过走网络的commit请求将offset在coordinator中保留，这样就能够保证下一次读取（不论进行了rebalance）时，既不会重复消费消息，也不会遗漏消息。
为了保证以上消费数据目标，需要组合配置参数auto.offset.reset和enable.auto.commit
方案一：不去设置以上两个参数，看看数据消费的情况，演示代码如下：

	可是，如果同一组内同一个消费者如何才能每次都从一个数据开始位置消费呢？且待下回分解

参考链接：
1.http://www.cnblogs.com/rainwang/p/7493742.html
2.https://blog.csdn.net/lishuangzhe7047/article/details/74530417
3.https://www.cnblogs.com/weixiuli/p/6413109.html
4.https://www.cnblogs.com/xuwujing/p/8432984.html

BigDataMLApplication

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录