作者 | 骆冰利
来源 | Erda 公众号
某天晚上,客户碰到了这样的问题:K8s 集群一直扩容失败,所有节点都无法正常加入集群。在经过多番折腾无解后,客户将问题反馈到我们这里,希望得到技术支持。该问题的整个排查过程比较有意思,本文对其中的排查思路及所用的方法进行了归纳整理并分享给大家,希望能够对大家在排查此类问题时有些帮助和参考。
问题现象
运维同学在对客户的 K8s 集群进行节点扩容时,发现新增的节点一直添加失败。初步排查结果如下:
- 在新增节点上,访问 K8s master service vip 网络不通。
- 在新增节点上,直接访问 K8s master hostIP + 6443 网络正常。
- 在新增节点上,访问其他节点的容器 IP 可以正常 ping 通。
- 在新增节点上,访问 coredns service vip 网络正常。
该客户使用的 Kubernetes 版本是 1.13.10,宿主机的内核版本是 4.18(centos 8.2)。
问题排查过程
收到该一线同事的反馈,我们已经初步怀疑是 ipvs 的问题。根据以往网络问题排查的经验,我们先