【踩坑】docker 中使用 Nvidia GPU

OS: Manjaro 21.1.0 Pahvo
Kernel: x86_64 Linux 5.10.56-1-MANJARO

安装 Docker

参考 How To Install Docker CE on Manjaro Linux

sudo pacman -S docker # 安装 docker-ce
sudo systemctl start docker.service # 开启 docker 服务
sudo systemctl enable docker.service # 开机自启动 docker 服务
sudo usermod -aG docker $USER # 让 docker 命令执行不需要 sudo
sudo docker --version # 查看 docker-ce 版本
reboot # 重启电脑使 usermod 生效

请确保 docker 版本高于 19.03,否则需要 nvidia-docker 才能使用 GPU

Nvidia GPU 支持

参考 Run GPU accelerated Docker containers with NVIDIA GPUs

yay -Ss nvidia-container-toolkit # 这个包在 AUR
sudo systemctl restart docker # 重启 docker 服务

主机 (host) 中只需要安装英伟达显卡驱动,不需要安装 cuda-toolkit.

测试:

docker pull nvidia/cuda:11.0-base-ubuntu18.04
docker run -it --gpus all nvidia/cuda:11.0-base-ubuntu18.04 nvidia-smi

遇到的问题

docker 中执行 nvidia-smi 后报错:

Failed to initialize NVML: Unknown Error

原因 (见上面 wiki 链接,执行 systemctl --version 查看 systemd 版本,如果是 v248 或更高则可确认是该问题):

Note: libnvidia-containerAUR has no support for cgroups v2. You need to set the systemd.unified_cgroup_hierarchy=false kernel parameter and set no-cgroups = false in /etc/nvidia-container-runtime/config.toml if you are using systemd v248 or higher.

解决方法

参见:

需要做的有:

  1. 添加内核参数 systemd.unified_cgroup_hierarchy=false
  2. /etc/nvidia-container-runtime/config.toml 修改参数 no-cgroups = false

其中内核参数修改方法(GRUB)为:编辑 /etc/default/grub,在 GRUB_CMDLINE_LINUX_DEFAULT 参数双引号内加上所需参数:GRUB_CMDLINE_LINUX_DEFAULT="... systemd.unified_cgroup_hierarchy=false",再执行 grub-mkconfig -o /boot/grub/grub.cfg 生成启动引导配置文件。然后重启电脑,执行 cat /proc/cmdline 确认参数已添加。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值