Kafka集群分区副本设置为1，当分区所在broker宕掉引发的该分区不可用的问题

Turn X7

已于 2022-08-30 14:24:12 修改

阅读量1.9k

点赞数 2

分类专栏： kafka 文章标签： kafka java 分布式

于 2020-08-12 01:32:40 首次发布

本文链接：https://blog.csdn.net/qq_32077121/article/details/107948401

版权

kafka 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

问题表象：业务进程中的kafka生产者线程报错：

put suc offset:-1 partition:1 topic: test_topic
org.apache.kafka.common.errors.TimeoutException:Expiring 13 record(s) for test_topic-1:3000 ms has passed since last append

于是查看kafka日志发现有如下告警：

[org.springframework.kafka.KafkaListenerEndpointContainer#0-0-C-1]WARN org.apache.kafka.clients.NetworkClient-[Consumer clientid=consumer-2,groupid=test_api] 1partitions have leader brokers without a matching llistener,includering[test_topic-]

意思像是该分区所对应的的broker失去监听了，失联了，所以怀疑是kafka某个节点有问题

于是查看topic信息发现

/kafka/bin/kafka-topics.sh --describe --zookeeper 192.168.1.108:2181 --topic test_topic

图片是粘的别人的，就是想贴个图表达个意思。发现partition1对应的leader为-1，Replicas:1003, Isr为空。

查看server.properties文件找到broker.id=1003对应的节点，发现该节点宕调了，宕调的原因因环境而异，不再赘述，把这个节点拉起来后问题解决，查看分区1的信息leader:1003 Isr:1003,生产者线程也能正常将数据入到kafka中，至此问题解决。

这不由得让我们思考一个问题：不都称赞kafka的高可用性么，作者自己搭建的kafka集群也是由三个节点组成的，为什么一个节点挂了，整个分区就不能正常使用了呢，其实是因为作者使用了默认的topic分区副本数量：offsets.topic.replication.factor=1

这样会导致一个问题，如果分区副本数量为1，那副本信息只会在某一个broker节点存在，Isr也就是其自身，当这个节点挂了的时候，已经选举不出新的leader,导致分区不可用，leader:-1,所以这也正是生产环境一般会设置多个副本因子来保证高可用性（比如三个节点组成一个集群，副本数量为2，这样当任意一台节点丢失，kafka集群仍会正常工作）。

再贴盗图一张表达个意思，主要看Isr信息

以上纯属作者自证结论，如跟读者有意见分歧，欢迎指正讨论。

欢迎大家私信博主，邀你进技术交流群

Turn X7

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Kafka集群分区副本设置为1，当分区所在broker宕掉引发的该分区不可用的问题

问题表象：业务进程中的kafka生产者线程报错：put suc offset:-1 partition:1 topic: test_topicorg.apache.kafka.common.errors.TimeoutException:Expiring 13 record(s) for test_topic-1:3000 ms has passed since last append于是查看kafka日志发现有如下告警：[org.springframework.kafka.KafkaLi
复制链接

扫一扫

专栏目录