cgroup泄露导致容器无法启动
现象:
容器状态异常, 通常是FATAL
容器日志中, 显示"mkdir /sys/fs/cgroup/ no space left on device"
分析处理
cgroup 是系统对进程进行资源限制的控制单位, 在4.3 以上的linux内核这个问题才算是稳定修复 首先执行下列检查:
cat /proc/cgroups|grep memory
结果中第三位是当前cgroups占用/目录的数量
ls -l -F /sys/fs/cgroups/memory/docker |grep /|wc -l
这是 docker 占用的cgroup目录, 亦即 docker cgroup的资源目录, 结果和 docker ps|wc -l
的容器数量结果大致相同
cgroup的默认限制是65536, 通过这一系列检查可以发现, 当前占用的cgroups数量(第一个命令结果)远小于65536, 新建容器会需要创建一个新的cgroup资源组, 而系统无法正确识别cgroup, 系统认为已经没有cgroup资源可以分配了, 所以容器无法启动 解决这个问题的办法, 目前只有重启机器
或者升级docker 版本 和 k8s 版本
参考资料: https://imroc.io/kubernetes-practice-guide/zh/troubleshooting/node/cgroup-leaking.html