目录
1、报错现象
在k8s高可用集群搭建过程中,关于etcd集群搭建是,报错了。
自己当时环境如下:
本次复用3个node节点来作为etcd使用
ectd2,etcd3可以正常启动etcd服务,但是ectd1依旧无法正常启动;
且etcd2虽然启动正常启动,但是有异常报错……
🐥 奇怪呀:之前都是搭建成功的呀,这次怎么有问题了呢……
2、排查过程
通过journalctl -u etcd
命令查看etcd1 etcd2均有异常报错:
etcd1 log:异常
etcd2 log:异常
etcd3 log:正常
3、解决过程
1、尝试办法1
🍀 网上通过次报错log,搜到的好多个博客的解决办法,基本如下:
停止all etcd服务,再清空etcd的DATA_DIR
目录数据,再启动etcd服务:
🍀 这里开始测试解决办法
- 停止etcd2 etcd3上的etcd服务
[root@k8s-master1 ~]#systemctl stop etcd
[root@k8s-master2 ~]#systemctl stop etcd
[root@k8s-node1 ~]#systemctl stop etcd
- 查看etcd的数据目录:
ETCD_DATA_DIR="/var/lib/etcd/default.etcd"
- 删除etcd数据目录
[root@k8s-master1 etcd_tls]#rm -rf /var/lib/etcd/default.etcd/*
[root@k8s-master2 ~]#rm -rf /var/lib/etcd/default.etcd/*
[root@k8s-node1 ~]#rm -rf /var/lib/etcd/default.etcd/*
- 但是,最后发现依旧起不来,和之前的报错现象一样……
2、尝试办法2
🤣 自己突然好想知道问题在哪里了……
- 好像找到问题了,原因是自己etcd1的配置文件里有注释导致……
其它2个ectd配置文件是没注释的:
- 这里将etcd1的配置文件注释去掉,然后停止all etcd服务,再清空etcd的
DATA_DIR
目录数据,再启动etcd服务,测试现象:
将etcd1的配置文件注释去掉:
停止all etcd服务:
[root@k8s-master1 ~]#systemctl stop etcd
[root@k8s-master2 ~]#systemctl stop etcd
[root@k8s-node1 ~]#systemctl stop etcd
清空etcd的DATA_DIR
目录数据:
[root@k8s-master1 ~]#rm -rf /var/lib/etcd/*
[root@k8s-master2 ~]#rm -rf /var/lib/etcd/*
[root@k8s-node1 ~]#rm -rf /var/lib/etcd/*
- 最后再次启动etcd服务:
此时先启动etcd1上的服务(会有延迟),当etcd2 和ectd3上的服务启动后,etcd1上的服务就可以正常启动了。
至此,以上问题已解决。
👉 自己把上面的故障环境再次复原了下,发现报相同的错误,哈哈,因此本次故障问题,算是彻底定位清楚了。
4、总结
按理说应该符合之前第一次做实验的故障现象的,第一个etcd1服务起不来,把etcd2 etcd3服务起后,etcd1就可以正常启动了;
但是由于自己etcd1的配置文件里包含了注释,导致以上故障问题出现,如此地尴尬;🤣
且需要注意的是,2次的故障报错是不同的:
1.需启动etcd2 etcd3服务后,etcd1才会启动 报错现象:
2.etcd1配置文件含注释 报错现象:
👉 后面要特别注意一些小细节呀,尤其是部署文档,一定要简明扼要,不要留一些模糊的地方;
引用
https://www.cnblogs.com/dukuan/p/8671345.html
关于我
我的博客主旨:
- 排版美观,语言精炼;
- 文档即手册,步骤明细,拒绝埋坑,提供源码;
- 本人实战文档都是亲测成功的,各位小伙伴在实际操作过程中如有什么疑问,可随时联系本人帮您解决问题,让我们一起进步!
🍀 微信二维码
x2675263825 (舍得), qq:2675263825。
🍀 微信公众号
《云原生架构师实战》
🍀 博客
www.onlyyou520.com
🍀 csdn
https://blog.csdn.net/weixin_39246554?spm=1010.2135.3001.5421
🍀 知乎
https://www.zhihu.com/people/foryouone
最后
好了,关于本次就到这里了,感谢大家阅读,最后祝大家生活快乐,每天都过的有意义哦,我们下期见