自定义消费者,为保证消费数据的安全性,自定义offset的存储于带事务的存储容器
Consumer消费数据时的可靠性是很容易保证的,因为数据在Kafka中是持久化的,故不用担心数据丢失问题。
由于consumer在消费过程中可能会出现断电宕机等故障,consumer恢复后,需要从故障前的位置的继续消费,所以consumer需要实时记录自己消费到了哪个offset,以便故障恢复后继续消费。
所以offset的维护是Consumer消费数据是必须考虑的问题。
package com.atguigu.kafka;
import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringSerializer;
import java.util.*;
public class MyConsumer {
// 存储最新的offset的集合
public static Map<TopicPartition,Long> currentOffset = new HashMap<>();
public static void main(String[] args) {
// 配置参数
Properties properties = new Properties();
//设置kafka集群
properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop202:9092");
// 设置反序列化的kv类型
properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,StringSerializer.class.getName());
// 设置消费者组的groupid
properties.put(ConsumerConfig.GROUP_ID_CONFIG,"0715");
// 设置从哪里开始消费
properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");
// 设置是否自动维护offset
properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,false);
//因为需要自定义存储offset所以改为手动动维护offset
// properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"true");
// 设置自动提交offset的时间间隔
//properties.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,2000);
// 创建消费者对象KafkaConsumer
final KafkaConsumer<String, String> kfConsumer = new KafkaConsumer<>(properties);
// 订阅topic
kfConsumer.subscribe(Arrays.asList("first"), new ConsumerRebalanceListener() {
//重平衡之前调用(在添加分区后需要要平衡分区)
@Override
public void onPartitionsRevoked(Collection<TopicPartition> partitions) {//
// 此处可写自己逻辑
}
//重平衡之后调用(在添加分区平衡之后调用)
@Override
public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
// 此处为添加分区后所需要实现的逻辑代码
// 清空map,因为partition会重新分配,map里保存的offset要清空
currentOffset.clear();
for (TopicPartition topicPartition : partitions) {
//自定义获取最新offset的方法,获取的最新offset
Long offset = getOffsetByTopicPartition(topicPartition);
//重新定义offset的方法
kfConsumer.seek(topicPartition,offset);
}
}
});
try {
while (true){
//拉取数据,参数是拉取数据的间隔
ConsumerRecords<String, String> records = kfConsumer.poll(100);
// 遍历打印消费数据(写消费数据的核心代码)
//为了保证数据的可靠性借助带有事务功能的数据库去存储offset
//开启事务的代码
for (ConsumerRecord<String, String> record : records) {
// record里面包含消息的所有信息,可以通过所提供的的方法所得到
System.out.println(record.topic() +"\t"+record.partition() +"\t"+ record.value() +"\t"+ record.offset());
// 保存topic和partition信息的对象
TopicPartition topicPartition = new TopicPartition(record.topic(), record.partition());
// topicPartition和offset放入map中,
currentOffset.put(topicPartition,record.offset());
}
// 此处提交map到带有事务的数据库中(具体看自己的业务),map中保存的为最新的offset
commitOffset(currentOffset);
// 关闭事务(具体代码自己实现)
}
} finally {
kfConsumer.close();
}
}
private static void commitOffset(Map<TopicPartition, Long> currentOffset) {
//保存offset的具体代码(根据自己的业务逻辑)
// 可以写jdbc的方式保存在mysql的数据库中
}
public static Long getOffsetByTopicPartition(TopicPartition topicPartition){
//根据topicPartition获取最新的offset的方法,
return 0L;
}
}