背景
ipam 报错,导致其他 pod 无法重新启动,启动 pod 直接报错如下
error adding container to network "portmap": unable to allocate IP via local cilium agent: [POST /ipam][502] postIpamFailure [POST /ipam][502] postIpamFailure
ipam 频繁重启,报错如下:
allocate ip 172.16.3.7 to node x.x.x.112 allocator failed, provided IP is already allocated
排查
尝试删除占了 172.16.3.7 的 pod ,发现重新启动 ipam 换了个 ip 继续报错
ip r s
发现 172.16.3.x 都是在 112 机器上,决定重启 112 节点上的 pod,尝试一下
kubectl get pod -n xxx -o wide |grep x.x.x.112|awk '{print$1}'|xargs kubectl delete pod -n xxx
删除节点全部 pod 重启后,发现 ipam 已经恢复正常。