由于物理机迁移、网络环境发生变更,可能导致集群结构的破坏。
1、 确认集群中是否还存在该节点:
Kubectl get nodes
2、 确认网络环境是否通畅:
可以通过 ping 该物理机IP
3、 确认物理机是否正常:
是否可以登录
登录后查看kubelet是否正常启动: systemctl status kubelet
查看内存情况: free –h
查看磁盘情况: df -h
4、 如果是高可用主节点,还需要确认 keepalived 和 proxy 是否正常:
systemctl status keepalived
systemctl status haproxy
5、 重置集群节点:
(1) 在保证kubelet运行正常的基础上,在需要重置的节点上执行kubeadm reset
(2) 在集群主节点创建加入集群的 secret: kubeadm token create --print-join-command
(3) 运行加入集群命令:如:
kubeadm join 10.28.1.XXX:8443 --token 13a4q5.zf1qo34fqjm38beh --discovery-token-ca-cert-hash sha256:82284cfa62be95ca7ae628855c1c5cbcb2c98140e9314665c19f5aecca7ea459
6、 在主节点上确认该节点是否加入:
kubectl get nodes
7、 以上步骤也可以解决由于 kubectl delete nodes 导致的节点丢失