Zookeeper一次故障处理

本文详细记录了一次线上Zookeeper连续出现的四次故障处理过程,从故障定位到解决措施,包括集群节点异常、元数据丢失等问题。在解决过程中,通过分析日志、调整配置,最终成功恢复Zookeeper的稳定运行,同时也揭示了ClickHouse对Zookeeper的影响及数据丢失的可能原因。
摘要由CSDN通过智能技术生成

记录一次线上Zookeeper故障


2018.02.06

部门引入了ClickHouse作为数据分析仓库,并且使用了复制表ReplicatedMergeTree,两个集群复制表的数据同步依赖Zookeeper,上线前就对Zookeeper的性能产生过顾虑,但是线上运行一段时间后,未发现异常。直到最近几周,故障频现,本文主要记录故障处理过程以及故障处理的一些思考和坑。

第一次故障

故障定位

第一次故障十分突然,Kafka、Mesos和Yarn都收到了影响。因为对Zookeeper的信任,因此排查耗费了一些时间。通过重启Kafka,发现连接Zookeeper超时才定位到ZK出现问题。

故障处理

查看zookeeper.log,日志中大量如下报错

2018-01-27 06:39:43,728 [myid:5] - WARN  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@362] - Exception causing close of session 0x0 due to java.io.IOException: ZooKeeperServer not running

重启Zookeeper但是无法恢复,日志中依然是上述not running报错

根据这个报错baidu、google,没有找到解决办法,看到有人猜测有脏数据写入,更改数据存储目录可以解决。当时对Zookeeper原理不大清楚,以及对元数据不够重视ÿ

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值