kafka集群副本同步问题排查

本文介绍了在Kafka集群中一台节点宕机后,如何分析和处理副本同步问题。宕机期间,总Leader replicas数量下降,under Replicated partitions急剧上升。集群恢复后,这两个指标恢复正常。宕机时间过长可能导致副本无法恢复,影响数据发送和消费。Kafka通过replica.lag.time.max.ms参数判断副本失效,并提供UnderReplicatedPartitions指标监控。应对措施包括检查下线Broker、性能问题和副本同步状态。
摘要由CSDN通过智能技术生成

背景:集群中的一台节点宕机,快速重启恢复。
过程
宕机期间和集群恢复期间副本情况如下
集群总Leader replicas和总 under Replicated partitions情况在这里插入图片描述
监控状态分析:
1.总Leader replicas数量有所下降,因为某台几点宕机,该结点上的Leader副本处于失联状态,
2.总under Replicated partitions急速上升,under-replicated 分区即失效分区,所有主副本不一致对应的分区即为失效分区,集群正常情况下总under Replicated partitions为0,即全部分区的主副本一致,在某节点宕机情况下该结点上的分区均为under Replicated partitions,所以总under Replicated partitions急速上升。
确认集群恢复:
1.总Leader replicas数量恢复到原来数量
2.总under Replicated partitions恢复为0

可能影响:
broker无法恢复:宕机时间过长超过kafka拉取副本的时间,被抛弃。ISR伸缩导致死锁,节点也无法恢复。
数据发送和消费异常:超过数据发送重连次数或time out 时间数据发送失败。数据发送分同步和异步,同步遇到leard连不上的时候还可能一直处于堵塞状态。下游消费连不上Leader并且超过程序重连次数或time out 时间不再尝试消费。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值