最近项目中大量用到了kafka作为两个系统之间传递消息的中间件,前段时间专门买了两本介绍kafka使用和源码分析的书,最近闲下来了,想对kafka做个小结。kafka Consumer 主要是从kafka上拉取消息的客户端,其基本的使用方法如下:
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092"); //kafka集群的连接地址
props.put("group.id", "test"); //goupId为test
props.put("enable.auto.commit", "false");//不自动提交offset
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");//key反序列化类
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");//value反序列化类
KafkaConsumer<String, String>; consumer = new KafkaConsumer<>(props);
consumer.subscribe(Arrays.asList("foo", "bar")); //订阅foo和bar两个topic
final int minBatchSize = 200; //最小处理批次数
List<ConsumerRecord<String, String>> buffer = new ArrayList<>();
while (true) {
ConsumerRecords<String, String> records = consumer.poll(100);//从服务器集群上拉取消息,阻塞时间100ms
for (ConsumerRecord<String, String> record : records) {
buffer.add(record);
}
if (buffer.size() >= minBatchSize) {
insertIntoDb(buffer);//将消息存入数据库
consumer.commitSync();//同步提交offset
buffer.clear();
}
}
上面是java版consumer client,使用起来还是比较简单,主要是不断轮询从kafka集群拉取消息。但是这里有一个比较关键的问题,如何保证 insertIntoDb(buffer)和 consumer.commitSync()这两个操作的一致性,一旦insertIntoDb发生异常导致offset没有提交,就可能导致重复消费。kafka官方也考虑到了这个问题,他们的建议是将offset和消息的处理结果放到同一事务(这里的事务可以通过关系型数据的事务来实现)中处理,一旦事务执行成功,则任务消息消费成功,事务回滚则需要重新消费。当发生服务端重启或者Rebalance操作时,消费者可以从关系数据库中找到offset并从此位置消费。
那么如何知道消费着发生了Rebance操作呢,可以通过ConsumerRebalanceListener接口开始实现,代码如下:
public class SaveOffsetsOnRebalance implements ConsumerRebalanceListener {
private Consumer<?,?> consumer;
public SaveOffsetsOnRebalance(Consumer<?,?> consumer) {
this.consumer = consumer;
}
//此方法会在consumer停止拉取数据,Rebalance之前调用
public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
// save the offsets in an external store using some custom code not described here
for(TopicPartition partition: partitions)
saveOffsetInExternalStore(consumer.position(partition));
}
//此方法会在offset重新分配之后,消费者拉取消息之前调用
public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
// read the offsets from an external store using some custom code not described here
for(TopicPartition partition: partitions)
consumer.seek(partition, readOffsetFromExternalStore(partition));
}
}
通过这个接口再rebalance之前保存offset,然后在Rebance之后拉取数据之前读取offset消费。这样可以实现消息传递保证的 Exactly once(从消费端保证不会重复消费或者少消费,生产端还需要做相应的设置),kafka的消息传递保证有三个级别:
At most once:至多一次,消息不会重复传递,但可能会丢
At least once :至少一次,消息可能回重复,但肯定不会丢
Exactly once:正好一次,消息不会重复,也不会丢
当然这个三个级别需要kafka 的生产者和消费者同时做相应的设置才能做到的,可以根据不同的业务需求做相应的设置,生产端要做到Exactly once,可以给消息设置全局唯一ID,由消费者进行去重。