最近在部署深度学习模型,用到Docker,在推理阶段需要用到GPU,因此有了这个需求:通过Docker使用服务器上的GPU设备。
在这里就不详细展开,网上有很多的教程。Docker19.0以上就支持nvidia-docker了。而在配置过程中主要记录两个bug:
docker --gpus Failed to initialize NVML: Unknown Error
解决方案:https://bbs.archlinux.org/viewtopic.php?id=266915
nvidia-container-cli: container error: cgroup subsystem devices not found
主要解决方案:和https://github.com/NVIDIA/nvidia-docker/issues/1447和https://github.com/NixOS/nixpkgs/issues/127146