背景:有个项目很久没有需求了,今天突然有一些小需求,需要在公司测试环境调接口造些假数据,发现接口响应200,却没有在数据库新增假数据。
问题排查:
因为消费者和生产者不是同一个服务,怀疑是不是消费者那个服务挂了,然后一顿操作,发现服务没有挂。
使用命令去监听这个topic是有消息接收到。
./kafka-console-consumer.sh --bootstrap-server 172.16.0.111:9093 --topic testTopic --group testGroup
这就诡异了,命令行的能监听到消息,jar服务监听不到消息,后来发现原来消费组不一样。
查看消费组状态,报了The coordinator is not available错误。
./kafka-consumer-groups.sh --bootstrap-server 172.16.0.111:9093 --group psis-external-group --describe
于是查看了一下kafka节点状态,发现其中一个节点挂了,重启这个节点后就能正常消费了。
引发思考:为什么某些节点挂了,同一主题,一些消费组可以消费到消息,一些消费组消费不到消息?
生产者发送的消息分发到不同的分区中,消费者接收数据的时候是按照消费者组来接收的,不同的消费组消费速度不一样,kafka把这个offset,根据消费组名称均衡的保存到了__consumer_offsert
的主题下。当某个节点挂掉后,如果ReplicationFactor副本为1的话,某些分区leader就会变成-1。那么就获取不到这消费组的offset,导致无法消费消息。
参考:
多个Kafka消费者如何同时消费相同Topic下的相同Partition的数据? - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/392259838Kafka消费组无法消费问题排查实战 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/557469061