kafka集群副本同步问题排查

最新推荐文章于 2024-07-22 14:07:22 发布

battybaby

最新推荐文章于 2024-07-22 14:07:22 发布

阅读量2.5k

点赞数

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/battybaby/article/details/122318660

版权

本文介绍了在Kafka集群中一台节点宕机后，如何分析和处理副本同步问题。宕机期间，总Leader replicas数量下降，under Replicated partitions急剧上升。集群恢复后，这两个指标恢复正常。宕机时间过长可能导致副本无法恢复，影响数据发送和消费。Kafka通过replica.lag.time.max.ms参数判断副本失效，并提供UnderReplicatedPartitions指标监控。应对措施包括检查下线Broker、性能问题和副本同步状态。

摘要由CSDN通过智能技术生成

背景：集群中的一台节点宕机，快速重启恢复。
过程：
宕机期间和集群恢复期间副本情况如下
集群总Leader replicas和总 under Replicated partitions情况在这里插入图片描述
监控状态分析：
1.总Leader replicas数量有所下降，因为某台几点宕机，该结点上的Leader副本处于失联状态，
2.总under Replicated partitions急速上升，under-replicated 分区即失效分区，所有主副本不一致对应的分区即为失效分区，集群正常情况下总under Replicated partitions为0，即全部分区的主副本一致，在某节点宕机情况下该结点上的分区均为under Replicated partitions，所以总under Replicated partitions急速上升。
确认集群恢复：
1.总Leader replicas数量恢复到原来数量
2.总under Replicated partitions恢复为0

可能影响：
broker无法恢复：宕机时间过长超过kafka拉取副本的时间，被抛弃。ISR伸缩导致死锁，节点也无法恢复。
数据发送和消费异常：超过数据发送重连次数或time out 时间数据发送失败。数据发送分同步和异步，同步遇到leard连不上的时候还可能一直处于堵塞状态。下游消费连不上Leader并且超过程序重连次数或time out 时间不再尝试消费。