记一次Kafka故障
2018.05.30
Kafka 0.10.0.10
背景介绍
因Kafka集群中一个节点宕机,因集群高可用机制集群工作正常,但是发现部分消费者无法读取到数据
故障原因
Kafka将直连Kafka的消费信息记录到了__consumer_offset这个topic中,这个topic在我们的集群中复制因子为1,并且所有的Partition落在了宕机的节点上,导致这个topic信息丢失,消费偏移量记录在这个topic中的消费者无法获取以及记录信息。
如何避免
Kafka Broker Config中针对这个offset topic有两个相关的配置
name | default |
---|---|
offsets.topic.replication.factor | 3 |
offsets.topic.num.partitions | 50 |
其中对offsets.topic.replication.factor
的解释是:
The replication factor for the offsets topic (set higher to ensure availability). To ensure that the effective replication factor o