Kubernetes - 记一次所有机器重启导致的集群问题

本文记录了一次由于机器重启导致Kubernetes集群出现问题的过程。问题表现为节点不可用,证书错误及时间差距过大。解决步骤包括:重置etcd集群证书,调整节点间时间同步,确保集群正常启动。最终发现,重启可能导致计算机时间回溯,使证书看似过期,通过重新安装流程恢复了集群正常运行。
摘要由CSDN通过智能技术生成

最近给客户部署的集群由于机器重启集群不能启动,首先执行kubectl get node,发现没有可用的node,于是去看centos的系统日志/var/log/message,日志中有x509,证书无效或已过期,心想,为啥重启集群会导致证书错误?且先记录下:

x509,证书错误,无效或已过期

于是从集群的基础从底层往上查,k8s将集群的信息会记录在etcd中,而各个节点由flannel分配的docker子网段信息也存储在etcd中,所以我们先从etcd查起,然后查flannel,最后查k8s,集群层次结构如下图:

k8s集群层次简图

查etcd,发现etcd的集群日志也有报告加密证书错误,那重新生成一遍证书,重启etcd集群,使其使用新证书,这个时候出现了新的问题,etcd集群报告各个节点的时间差距太大,超过1s的容错范围,etcd使用了raft算法,选举leader过程中,会使用日志和日志记录的时间,如果各个节点时间差距超过1s,那么选举过程就会一直不成功,集群也一直不能正常启动。

既然由于各个节点时间差距较大,那就用ntp server都校

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值