现象
docker 版本
docker 的 cgroupdriver=systemd
查看驱动设备
ls -l /dev/nvidia*
原因是因为: ubuntu系统自动更新后会执行 sysytem daemon-reload
命令,导致挂载到容器里的cgroup处于不写状态 通过命令cat /sys/fs/cgroup/devices/devices.list
查看,可以看到处于不可写的状态
复现issuse: https://github.com/NVIDIA/nvidia-docker/issues/1650
解决方案
修改docker的cgroupdriver为 cgroupfs重启docker
修改kubelet的cgroupdriver为cgroupfs后重启kubelet
相关issuse:
https://github.com/kubernetes/minikube/issues/10505
https://github.com/NVIDIA/gpu-operator/issues/430
https://github.com/NVIDIA/nvidia-docker/issues/1671
https://github.com/NVIDIA/nvidia-docker/issues/1678
查看 stat -fc %T /sys/fs/cgroup/