一、问题现象
描述:当pod调度到某主机上时,pod无法正常启动并显示如下图事件。
二、排查思路
- 查看网络插件日志。
- 去主机上看/var/lib/cni/networks/default-cni-network这个目录 发现ip已经占满,如下图现象。
三、问题原因
- 这是kubernetes的一个老问题了,与容器无法启动/失败时不清理容器ip有关
- 该问题的根本原因是由于pod生命周期的PodSync循环处理策略与cni插件的冲突导致的,即本应该作为GC goroutine(一个go语言的调度器,或者可以直接理解为kubelet)的一部分的cni delete没有被调用而导致了IP泄露。因此该问题并非是网络插件单方面问题,和k8s自身和docker都有所关联。由于该问题复现较为困难,目前我们也并没有使用calico去尝试复现该问题,因此并不确定calico一定不会出现此问题。
- 可以尝试通过手动删除IP池中没有被使用到的IP,但这种方式并不能根本性的解决,只能保证新起pod有IP可用。如果您现在的环境无法重启docker,可以先通过手动删除的方式来临时解决,等存在重启docker的窗口期时再去重启docker来修复。
四、解决办法
- 需要把/var/lib/cni/networks/default-cni-network这个目录mv一个bak出来,然后新建一个目录,重启docker
- 让这个主机上的pod全部重新分配IP
systemctl stop docker
cp -r /var/lib/cni/network/default-cni-network/ /var/lib/cni/network/default-cni-network_bak/
cd /var/lib/cni/network/default-cni-network/
rm -f 10*
systemctl start docker
相关issues:
https://github.com/kubernetes/kubernetes/issues/86944
https://github.com/kubernetes/kubernetes/pull/94624