记一次kafka集群故障处理

        线上生产集群一直没有动过,却突然有一天一个节点的磁盘IO一直拉满,跑到100%,查看集群其他节点,均无异常流量,所以怀疑是虚机所在宿主机的磁盘有性能瓶颈。于是,第一步换宿主机,结果换好后重启还是不行。

       既然不是机器性能问题,那就是机器系统问题喽。第二步,重装系统。重装后,喜剧的一幕出现了,当重装机器启动同步数据时,集群的另外两个节点的主机服务就会抛异常退出,异常如下:

INFO [ReplicaFetcherManager on broker 2] Removed fetcher for partitions topic-xxx (kafka.server.ReplicaFetcherManager)

INFO [Partition topic-xxx-1 broker=2] Cached zkVersion [428] not equal to that in zookeeper, skip updating ISR (kafka.cluster.Partition)

INFO [Partition topic-xxx-1 broker=2] Shrinking ISR from 2,5 to 2 (kafka.cluster.Partition)

多次重启也不成功。 只有在重装主机服务关闭时,这两个节点才能正常启动。既然Cached zkVersion [428] not equal to that in zookeeper 有异常,kafka就不能找到分区leader了,于是就删除了两个无法启动节点的kafka配置文件里 log.dirs 下的目录的recovery-point-offset-checkpoint 与replication-offset-checkpoint 两个文件删除了。再次尝试重启,问题就解决了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值