Kafka offset管理

hadoove

于 2019-01-10 09:40:37 发布

阅读量6k

点赞数 3

分类专栏：大数据 kafka 大数据文章标签： kafka offset

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013817676/article/details/86212691

版权

本文介绍了Kafka消费者在消费过程中如何记录消费Offset，包括不同管理方式的优缺点，如Spark Checkpoint、外部NOSQL数据库、ZooKeeper以及Kafka自身的Topic。重点讨论了Kafka自动提交Offset的配置以及`auto.offset.reset`属性的含义，并提供了相关的SHELL命令示例。

摘要由CSDN通过智能技术生成

Kafka offset管理

消费者在消费的过程中需要记录自己消费了多少数据，即消费 Offset。Kafka Offset 是Consumer Position，与 Broker 和 Producer 都无关。每个 Consumer Group、每个 Topic 的每个Partition 都有各自的 Offset，如下图所示。

通常由如下几种 Kafka Offset 的管理方式：

Spark Checkpoint：在 Spark Streaming 执行Checkpoint 操作时，将 Kafka Offset 一并保存到 HDFS 中。这种方式的问题在于：当 Spark Streaming 应用升级或更新时，以及当Spark 本身更新时，Checkpoint 可能无法恢复。因而，不推荐采用这种方式。
HBASE、Redis 等外部 NOSQL 数据库：这一方式可以支持大吞吐量的 Offset 更新，但它最大的问题在于：用户需要自行编写 HBASE 或 Redis 的读写程序，并且需要维护一个额外的组件。
ZOOKEEPER：老版本的位移offset是提交到zookeeper中的，目录结构是：/consumers/<group.id>/offsets/ <topic>/<partitionId> ，但是由于 ZOOKEEPER 的写入能力并不会随着 ZOOKEEPER 节点数量的增加而扩大，因而，当存在频繁的 Offset 更新时，ZOOKEEPER 集群本身

最低0.47元/天解锁文章

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。