kafka消费者总结(一)

   最近项目中大量用到了kafka作为两个系统之间传递消息的中间件,前段时间专门买了两本介绍kafka使用和源码分析的书,最近闲下来了,想对kafka做个小结。kafka Consumer 主要是从kafka上拉取消息的客户端,其基本的使用方法如下:

  Properties props = new Properties();
  props.put("bootstrap.servers", "localhost:9092");  //kafka集群的连接地址
  props.put("group.id", "test"); //goupId为test
  props.put("enable.auto.commit", "false");//不自动提交offset
  props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");//key反序列化类
  props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");//value反序列化类
  KafkaConsumer<String, String>; consumer = new KafkaConsumer<>(props);
  consumer.subscribe(Arrays.asList("foo", "bar")); //订阅foo和bar两个topic
  final int minBatchSize = 200; //最小处理批次数
  List<ConsumerRecord<String, String>> buffer = new ArrayList<>();
  while (true) {
      ConsumerRecords<String, String> records = consumer.poll(100);//从服务器集群上拉取消息,阻塞时间100ms
      for (ConsumerRecord<String, String> record : records) {
          buffer.add(record);
      }
      if (buffer.size() >= minBatchSize) {
          insertIntoDb(buffer);//将消息存入数据库  
          consumer.commitSync();//同步提交offset
          buffer.clear();
      }

  }

   上面是java版consumer client,使用起来还是比较简单,主要是不断轮询从kafka集群拉取消息。但是这里有一个比较关键的问题,如何保证 insertIntoDb(buffer)和 consumer.commitSync()这两个操作的一致性,一旦insertIntoDb发生异常导致offset没有提交,就可能导致重复消费。kafka官方也考虑到了这个问题,他们的建议是将offset和消息的处理结果放到同一事务(这里的事务可以通过关系型数据的事务来实现)中处理,一旦事务执行成功,则任务消息消费成功,事务回滚则需要重新消费。当发生服务端重启或者Rebalance操作时,消费者可以从关系数据库中找到offset并从此位置消费。

  那么如何知道消费着发生了Rebance操作呢,可以通过ConsumerRebalanceListener接口开始实现,代码如下:

 public class SaveOffsetsOnRebalance implements ConsumerRebalanceListener {
       private Consumer<?,?> consumer;
 
       public SaveOffsetsOnRebalance(Consumer<?,?> consumer) {
           this.consumer = consumer;
       }
       //此方法会在consumer停止拉取数据,Rebalance之前调用
       public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
           // save the offsets in an external store using some custom code not described here
           for(TopicPartition partition: partitions)
              saveOffsetInExternalStore(consumer.position(partition));
       }
       //此方法会在offset重新分配之后,消费者拉取消息之前调用
       public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
           // read the offsets from an external store using some custom code not described here
           for(TopicPartition partition: partitions)
              consumer.seek(partition, readOffsetFromExternalStore(partition));
       }
    }

通过这个接口再rebalance之前保存offset,然后在Rebance之后拉取数据之前读取offset消费。这样可以实现消息传递保证的 Exactly once(从消费端保证不会重复消费或者少消费,生产端还需要做相应的设置),kafka的消息传递保证有三个级别:

  At most once:至多一次,消息不会重复传递,但可能会丢

  At least once :至少一次,消息可能回重复,但肯定不会丢

  Exactly once:正好一次,消息不会重复,也不会丢

当然这个三个级别需要kafka 的生产者和消费者同时做相应的设置才能做到的,可以根据不同的业务需求做相应的设置,生产端要做到Exactly once,可以给消息设置全局唯一ID,由消费者进行去重。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值