kafka 故障：监控出现 offline partition 1个和大量under replicated 状态分区.

最新推荐文章于 2024-09-10 13:59:08 发布

peidezhi

最新推荐文章于 2024-09-10 13:59:08 发布

阅读量9.1k

点赞数 2

分类专栏： kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/peidezhi/article/details/105532034

版权

kafka 专栏收录该内容

10 篇文章

订阅专栏

概念：

失效副本：在 ISR 集合之外，也就是处于同步失效或功能失效（比如副本处于非存活状态）的副本统称为失效副本。

当 ISR 集合中的一个 follower 副本滞后 leader 副本的时间超过此参数指定的值时（replica.lag.time.max.ms 参数的默认值为10000）则判定为同步失败，需要将此 follower 副本剔除出 ISR 集合。

这些follower副本处于同步失效状态。

Under Replicated Partition: 具有失效副本的分区即为Under Replicated Partition。

offline partition : partition的leader挂了, 状态为OfflinePartition;

什么场景下会出现offline partition?

1 The brokers with replicas are down.

某个节点brokern宕机。该节点上的leader partition 瞬间挂掉, 立即出现大量offline partition. 随着leader partition的重新选举， offline partition的数量会迅速减少甚至消失。

2 Unclean leader election is disabled and the replicas aren't in sync.

当参数unclean.leader.election.enable=false 时，如果某个leader patition 挂掉，但是重新选举leader失败。那么此topic将永远处于offline状态。

试想：当某个topic的副本都不在sync列表，代表副本落后leader 太多。leader挂掉，此时kafka将不允许不在sync列表中的副本partition成为leader. 除非设置 unclean.leader.election.enable=true，但是此时会导致数据丢失。

所以出现offline partition一般是节点故障，但是其它节点副本又落后leader太多导致。

1 CDH Kafka实例出现红色告警offline partition

2 查看CDH 图表实例：发现从4月14号3：20 ，到今天4月15号一直保持offline partitions数量和under replicated数量不变。

3 在命令行查看under replicated parttion 状态的topic

./kafka-topics.sh --describe --zookeeper sz-xx-01:2181 --under-replicated-partitions

通过上述命令发现， topic relication都是【90 91 92】，但是ISR清单都是只有【90， 92 】。91 没有在leader分区。

基本断定broker id91所在节点 SZ-XX-02 有问题。

4 在节点 SZ-XX-02 查看broker id 相关日志。时间起点 4月14号 3：20左右。

/var/log/kafka/kafka-broker-sz-xx-02.log, 找到4月14号3点20左右的信息。

发现当时出现了磁盘空间不足： /data2/local/kafaka路径，检查磁盘空间，目前已经有剩余空间了。

5 原因分析：经上述步骤，基本断定，因为broker 91 磁盘空间空间不足，导致该节点当时的所有副本都变为 under replicated状态。但是磁盘空间后来变的充足了，并没有自动恢复。

重启broker id 91, 所有问题解决, under replicated状态的分区1分钟左右慢慢显示正常。offline partition分区也恢复。

91也均衡的变为leader parttion

博客等级

码龄18年

48
原创

21
点赞

149
收藏

403
粉丝

关注

私信

热门文章

分类专栏

kafka 10篇
AI 3篇
HDFS 2篇
spark 3篇
Yarn 3篇
Flink 11篇
tensorflow 1篇
flume
LDAP 2篇
mysql 2篇
CDH 4篇
idea 1篇
impala 1篇
solr 1篇
Hbase 2篇
hive 1篇
Linux 运维 2篇

最新评论

G1 GC基本逻辑
TheMythWS: 看不懂好高级
Kafka常用操作
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录。
kafka 故障：监控出现 offline partition 1个和大量under replicated 状态分区.
benpaodexiaowoniu: 厉害，我cdh6.2.0集群中出现此问题，果然是需重启就能解决问题。附重启“前后”命令所查均为：[code=java] cd /opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/kafka/ ./bin/kafka-topics.sh --describe --zookeeper lngest02.ane56.com:2181,Streaming02.ane56.com:2181,lngest01.ane56.com:2181 --under-replicated-partitions 23/01/04 15:24:55 INFO zookeeper.ZooKeeperClient: [ZooKeeperClient] Connected. Topic: __consumer_offsets Partition: 0 Leader: 301 Replicas: 301,299,300 Isr: 299,301 Topic: __consumer_offsets Partition: 1 Leader: 301 Replicas: 302,300,301 Isr: 301 Topic: __consumer_offsets Partition: 2 Leader: 295 Replicas: 295,303,294 Isr: 294,295 [/code]
Flink读写Kerberos认证Kafka环境。
liyuan.zhang: 他这个应该是通过环境变量配置的但是这些配置文件一定要放在flink机器上吗不能直接打在jar里吗
yarn WEB UI及reserved memory、spark WEB UI
偶尔失联: 有帮助，感谢

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。