kafka consumer 如何设置每次重启时从最新数据开始读取

    最近在做实时报警的机制,显然我需要程序每次重启时都读取最新数据。但是寻找了半天无论是kafka的java客户端还是python客户端都没有这样的设置参数。没办法只能自己实现了,思路有两种。

  1. 直接操作zookeeper,因为kafka默认的consumer以及offset的信息是存贮在zookeeper中的,我们只要将zookeeper中相应的文件夹删掉,再连接kafka时我们就像新的consumer一样,会从最新数据开始读取
  2. 使用seek_to_end函数,seek_to_end会直接将位置定位到最新数据。但是在之前需要poll一次数据,不然会报没有分配partition的错误。这说明我们的框架也是懒加载的,只有在具体poll数据的时候才会分配partition。kafka-pyhton的样例代码如下:
    from kafka import KafkaConsumer
    consumer = KafkaConsumer('test', group_id='zhy_flow',
    max_poll_records=10)
    res = consumer.poll(10)
    consumer.seek_to_end()
    for msg in consumer:
    print (msg)
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值