【故障排查】VMware挂起后恢复，k8s集群无法ping/curl通pod/svc/ingress

最新推荐文章于 2023-05-31 17:30:13 发布

Nightwish5

最新推荐文章于 2023-05-31 17:30:13 发布

阅读量191

点赞数

分类专栏：故障排错文章标签： kubernetes docker 容器 VMware挂起 pod不通

本文链接：https://blog.csdn.net/nightwish5/article/details/130192279

版权

故障排错专栏收录该内容

21 篇文章 1 订阅

订阅专栏

环境简述：

31 master 。 32 node1 。 33 node2 。 34 harbor/docker。

问题现象：

一、master/node节点，去curl pod IP，一直卡着，没反应。timeout。
二、挂起恢复后，harbor服务无法正常访问503 ，需要重启harbor服务。
在这里插入图片描述
进容器curl localhost，是正常的。

而网络CNI 、flannel 、 coreDNS等都是running状态。（发现restarts的次数有点多） .这里的metrics-server一直失败的。

排查：

#下面两个能显示出对应的报错信息
vim /var/log/message
systemctl status kubelet -f

#此时coreDNS、、flannel、kube-proxy 的 describe/logs 日志是正常的
kubectl describe pod  （coredns/flannel/kube-proxy） -n kube-system
kubectl logs  （coredns/flannel/kube-proxy） -n kube-system

最终处理

#通过搜索/问人。有老哥说，这是VMware挂起导致的。 看messages信息，也吻合挂起时间。 （这个问题也没会想到是挂起vm的锅，报错日志也没明确的信息提示是“挂起后”导致的）
systemctl restart docker && systemctl restart kubelet
重启coreDNS、、flannel、kube-proxy。 都没用。

最终reboot重启 k8s集群的机器。


小结：所以挂起vm再唤醒机器，K8s/docker-compose起的服务，网络都可能会有故障。 优先从/var/log/message和systemctl status kubelet -f找出报错信息，提高处理问题效率。

可参考：
https://blog.csdn.net/weixin_43293361/article/details/114731838 《解决虚拟机挂起后再恢复导致的k8s集群网络问题》

其他-报错日志信息（待写）

Nightwish5

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【故障排查】VMware挂起后恢复，k8s集群无法ping/curl通pod/svc/ingress

https://blog.csdn.net/weixin_43293361/article/details/114731838 《解决虚拟机挂起后再恢复导致的k8s集群网络问题》（发现restarts的次数有点多） .这里的metrics-server一直失败的。一、master/node节点，去curl pod IP，一直卡着，没反应。二、挂起恢复后，harbor服务无法正常访问503 ，需要重启harbor服务。进容器curl localhost，是正常的。
复制链接

扫一扫