由于无法分配ip而导致的FailedCreatePodSandBox

最新推荐文章于 2024-04-07 10:27:32 发布

Ivan_Wz

最新推荐文章于 2024-04-07 10:27:32 发布

阅读量2.3k

点赞数

分类专栏： kubernetes 文章标签： kubernetes docker 网络

本文链接：https://blog.csdn.net/Ivan_Wz/article/details/112005450

版权

kubernetes 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

由于无法分配ip而导致的FailedCreatePodSandBox

一、问题现象
二、排查思路
三、问题原因
四、解决办法

一、问题现象

描述：当pod调度到某主机上时，pod无法正常启动并显示如下图事件。

二、排查思路

查看网络插件日志。
去主机上看/var/lib/cni/networks/default-cni-network这个目录发现ip已经占满，如下图现象。

三、问题原因

这是kubernetes的一个老问题了，与容器无法启动/失败时不清理容器ip有关
该问题的根本原因是由于pod生命周期的PodSync循环处理策略与cni插件的冲突导致的，即本应该作为GC goroutine(一个go语言的调度器，或者可以直接理解为kubelet)的一部分的cni delete没有被调用而导致了IP泄露。因此该问题并非是网络插件单方面问题，和k8s自身和docker都有所关联。由于该问题复现较为困难，目前我们也并没有使用calico去尝试复现该问题，因此并不确定calico一定不会出现此问题。
可以尝试通过手动删除IP池中没有被使用到的IP，但这种方式并不能根本性的解决，只能保证新起pod有IP可用。如果您现在的环境无法重启docker，可以先通过手动删除的方式来临时解决，等存在重启docker的窗口期时再去重启docker来修复。

四、解决办法

需要把/var/lib/cni/networks/default-cni-network这个目录mv一个bak出来，然后新建一个目录，重启docker
让这个主机上的pod全部重新分配IP

systemctl stop docker
cp -r /var/lib/cni/network/default-cni-network/  /var/lib/cni/network/default-cni-network_bak/
cd /var/lib/cni/network/default-cni-network/ 
rm -f 10*
systemctl start docker