Kafka集群分区副本设置为1,当分区所在broker宕掉引发的该分区不可用的问题

问题表象:业务进程中的kafka生产者线程报错:

put suc offset:-1 partition:1 topic: test_topic
org.apache.kafka.common.errors.TimeoutException:Expiring 13 record(s) for test_topic-1:3000 ms has passed since last append

于是查看kafka日志发现有如下告警:

[org.springframework.kafka.KafkaListenerEndpointContainer#0-0-C-1]WARN org.apache.kafka.clients.NetworkClient-[Consumer clientid=consumer-2,groupid=test_api] 1partitions have leader brokers without a matching llistener,includering[test_topic-]

意思像是该分区所对应的的broker失去监听了,失联了,所以怀疑是kafka某个节点有问题

于是查看topic信息发现

/kafka/bin/kafka-topics.sh --describe --zookeeper 192.168.1.108:2181 --topic test_topic

图片是粘的别人的,就是想贴个图表达个意思。发现partition1对应的leader为-1,Replicas:1003, Isr为空。

查看server.properties文件 找到broker.id=1003对应的节点,发现该节点宕调了,宕调的原因因环境而异,不再赘述,把这个节点拉起来后问题解决,查看分区1的信息leader:1003 Isr:1003,生产者线程也能正常将数据入到kafka中,至此问题解决。

这不由得让我们思考一个问题:不都称赞kafka的高可用性么,作者自己搭建的kafka集群也是由三个节点组成的,为什么一个节点挂了,整个分区就不能正常使用了呢,其实是因为作者使用了默认的topic分区副本数量:offsets.topic.replication.factor=1

这样会导致一个问题,如果分区副本数量为1,那副本信息只会在某一个broker节点存在,Isr也就是其自身,当这个节点挂了的时候,已经选举不出新的leader,导致分区不可用,leader:-1,所以这也正是生产环境一般会设置多个副本因子来保证高可用性(比如三个节点组成一个集群,副本数量为2,这样当任意一台节点丢失,kafka集群仍会正常工作)。

再贴盗图一张表达个意思,主要看Isr信息

以上纯属作者自证结论,如跟读者有意见分歧,欢迎指正讨论。

  欢迎大家私信博主,邀你进技术交流群

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值