记一次Kafka故障
2018.05.30
Kafka 0.10.0.10
背景介绍
因Kafka集群中一个节点宕机,因集群高可用机制集群工作正常,但是发现部分消费者无法读取到数据
故障原因
Kafka将直连Kafka的消费信息记录到了__consumer_offset这个topic中,这个topic在我们的集群中复制因子为1,并且所有的Partition落在了宕机的节点上,导致这个topic信息丢失,消费偏移量记录在这个topic中的消费者无法获取以及记录信息。
如何避免
Kafka Broker Config中针对这个offset topic有两个相关的配置
| name | default |
|---|---|
| offsets.topic.replication.factor | 3 |
| offsets.topic.num.partitions | 50 |
其中对offsets.topic.replication.factor的解释是:
The replication factor for the offsets topic (set higher to ensure availability). To ensure that the effective replication

本文记录了一次由于Kafka集群中某节点宕机,导致__consumer_offset主题(复制因子为1)的数据丢失,进而影响消费者无法读取数据的故障。故障的根本原因是__consumer_offset主题的Partition全部位于宕机节点上。为了避免类似问题,需要确保offset topic的复制因子配置合理,至少在第一次消费者请求时,集群中存活的节点数量要满足配置的复制因子要求。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



