kafka consumer 如何设置每次重启时从最新数据开始读取

最新推荐文章于 2023-11-17 11:17:31 发布

张月鹏

最新推荐文章于 2023-11-17 11:17:31 发布

阅读量1.6w

点赞数 2

分类专栏： kafka 文章标签： kafka consumer 读取最新数据

本文链接：https://blog.csdn.net/h4565445654/article/details/78342930

版权

2 篇文章 0 订阅

订阅专栏

最近在做实时报警的机制，显然我需要程序每次重启时都读取最新数据。但是寻找了半天无论是kafka的java客户端还是python客户端都没有这样的设置参数。没办法只能自己实现了，思路有两种。

直接操作zookeeper，因为kafka默认的consumer以及offset的信息是存贮在zookeeper中的，我们只要将zookeeper中相应的文件夹删掉，再连接kafka时我们就像新的consumer一样，会从最新数据开始读取
使用seek_to_end函数，seek_to_end会直接将位置定位到最新数据。但是在之前需要poll一次数据，不然会报没有分配partition的错误。这说明我们的框架也是懒加载的，只有在具体poll数据的时候才会分配partition。kafka-pyhton的样例代码如下：
from kafka import KafkaConsumer consumer = KafkaConsumer('test', group_id='zhy_flow', max_poll_records=10) res = consumer.poll(10) consumer.seek_to_end() for msg in consumer: print (msg)