最近在做实时报警的机制,显然我需要程序每次重启时都读取最新数据。但是寻找了半天无论是kafka的java客户端还是python客户端都没有这样的设置参数。没办法只能自己实现了,思路有两种。
- 直接操作zookeeper,因为kafka默认的consumer以及offset的信息是存贮在zookeeper中的,我们只要将zookeeper中相应的文件夹删掉,再连接kafka时我们就像新的consumer一样,会从最新数据开始读取
- 使用seek_to_end函数,seek_to_end会直接将位置定位到最新数据。但是在之前需要poll一次数据,不然会报没有分配partition的错误。这说明我们的框架也是懒加载的,只有在具体poll数据的时候才会分配partition。kafka-pyhton的样例代码如下:
from kafka import KafkaConsumer
consumer = KafkaConsumer('test', group_id='zhy_flow',
max_poll_records=10)
res = consumer.poll(10)
consumer.seek_to_end()
for msg in consumer:
print (msg)