kafka consumer 如何设置每次重启时从最新数据开始读取

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/h4565445654/article/details/78342930

    最近在做实时报警的机制,显然我需要程序每次重启时都读取最新数据。但是寻找了半天无论是kafka的java客户端还是python客户端都没有这样的设置参数。没办法只能自己实现了,思路有两种。

  1. 直接操作zookeeper,因为kafka默认的consumer以及offset的信息是存贮在zookeeper中的,我们只要将zookeeper中相应的文件夹删掉,再连接kafka时我们就像新的consumer一样,会从最新数据开始读取
  2. 使用seek_to_end函数,seek_to_end会直接将位置定位到最新数据。但是在之前需要poll一次数据,不然会报没有分配partition的错误。这说明我们的框架也是懒加载的,只有在具体poll数据的时候才会分配partition。kafka-pyhton的样例代码如下:
    from kafka import KafkaConsumer
    consumer = KafkaConsumer('test', group_id='zhy_flow',
    max_poll_records=10)
    res = consumer.poll(10)
    consumer.seek_to_end()
    for msg in consumer:
    print (msg)
展开阅读全文

没有更多推荐了,返回首页