Zookeeper的崩溃恢复问题

最新推荐文章于 2024-08-22 20:19:44 发布

frockee

最新推荐文章于 2024-08-22 20:19:44 发布

阅读量4.5k

点赞数 6

分类专栏：工作 zookeeper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/frockee/article/details/83117701

版权

工作同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

背景

UDDB（UCloud分布式数据库）产品的测试环境中有一个zk集群，三节点。某一天其中一个zk节点所在云主机崩溃了，无法启动。只好重装系统盘。

zk的执行码在系统盘上。为此重新安装了zk软件。 apt-get install zookeeper 即可。

zk的配置文件（zoo.cfg），三节点都是一样的，从其他zk节点拷贝一份过来即可。

zk存储的数据在数据盘上。根据zk的崩溃恢复机制，存储的老数据可以删除，在zk重启后由其他zk节点再同步过来即可。

因此，从开始到结束，执行了以下操作：

1. apt-get install zookeeper

2. 修改/etc/hosts ，配置ip 和zoo.cfg中主机名的对应关系：

zoo.cfg中的配置是：

server.1=10-10-182-162:2888:3888
server.2=10-10-150-34:2888:3888
server.3=10-10-149-63:2888:3888

于是在/etc/hosts增加：

10.10.182.162   10-10-182-162
10.10.150.34    10-10-150-34
10.10.149.63    10-10-149-63

3.删除了zk的老数据:

rm -rf /data/zookeeper/version-2

但保持/data/zookeeper/myid 这个文件不变（用来存储这个zk节点的id)。

4.启动zk:

cd /usr/share/zookeeper/bin

bash zkServer.sh stop

bash zkServer.sh start

zk进程能够成功启动，但是启动后用zkCli.sh 登陆，无法 ls /:

查看/var/log/zookeeper/zookeeper.log，有以下报错：

查看网上资料，指出该问题原因大多为新启动的zk节点无法加入到集群中。但是为何无法加入，原因各异，又始终无法和我这个问题匹配起来。

分析

带着这个问题，查看了另外2个zk节点的日志，其中有：

注意到红框中的日志。从该日志看，像是底层网络就出现异常了。为何会出现异常？我lsof -p 三个zk进程，发现第一个崩溃重启后的进程，其3888端口竟然是：

是绑定了localhost端口。

再看下 /etc/hosts 发现之前的配置是有问题的：

在增加：

10.10.182.162   10-10-182-162
10.10.150.34    10-10-150-34
10.10.149.63    10-10-149-63

时，忘记删除 127.0.0.1 10-10-182-162 这个配置项。导致10-10-182-162这个主机名，依然解析到127.0.0.1。

解决

把该配置项删除，然后重启zk节点，问题得到解决，通过zkÇli.sh 执行： ls / 没有问题。

总结

1.zk节点崩溃后重启，不需要先同步数据（直接把之前老的数据删除即可），在zk重启后，将从其他zk节点自动同步数据；

2.配置时一定要仔细，查问题时多看日志多用心分析。

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

frockee CSDN认证博客专家 CSDN认证企业博客

码龄17年

14: 原创

26万+: 周排名

18万+: 总排名

4万+: 访问

: 等级

429: 积分

34: 粉丝

31: 获赞

6: 评论

57: 收藏

私信

关注

热门文章

分类专栏

最新评论

云主机下搭建网页爬虫
CSDN-Ada助手: 恭喜您在云主机下成功搭建网页爬虫！持续创作是非常不易的，您的努力和坚持都值得称赞。接下来，或许可以考虑分享一些关于优化爬虫效率的技巧，或是介绍一些常见的爬虫应用场景，让读者能够更深入地了解这个领域。希望您继续保持创作的热情，期待看到更多精彩的内容！
源码安装automake1.16遇到的问题
褚骏逸: 博主好～我发现可以直接用conda install
haproxy透传用户ip-方法和原理
zy670519: 纯外网完全可以部署吗 haproxy 外网，源站外网。这种可以部署吗
haproxy透传用户ip-方法和原理
Haisen大王: 有性能影响吗？？
关于数据库集群，云计算的胡言乱语(1)
chenthao: 还就想看（这个以后再写）的内容。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。