写在前面
这是我第一次写一个教程,或者说是第一次在CSDN发表一个技术文章,以下内容记录了我解决此问题的过程。我并非此领域的大牛,仅是站在了巨人的肩膀上----参考了许多相关教程,文中提到的技术均已指明来源,有的可能并非该技术的源头地址,但对我来说可能是最有用的部分,致谢文中提到所有文章的作者。
最近在搞一个语音识别的项目:wav2vec-U,介于fairseq框架所需的依赖太多而杂,久久没能完成复现,皇天不负有心人终于让我找到一个大牛(@voidful voidful)已经在docker上搭建好的环境,然docker之前也从未接触过,连夜学习了一些基础的命令,按照菜鸟教程:centos安装docker上的方法装好了docker,在我欣喜若狂的pull了大佬的image后,开始创建container
docker run -v $(pwd):/workspace/data --gpus all -it voidful/wav2vec-u:1.0.0 bash
#报了下面的错误
could not select device driver "" with capabilities: [[gpu]].
ERRO[0000] error waiting for container: context canceled
搜索发现,缺少docker使用GPU的nvidia的工具包支持
docker: Error response from daemon: could not select device driver ““ with capabilities: gpu
以上,便有了我这篇文章的来源。
一、docker所需nvidia工具包分类
要使docker容器能调用本地的gpu,有三种方法:
一是,安装nvidia-docker,该方法已被官方舍弃
地址为https://github.com/NVIDIA/nvidia-docker#upgrading-with-nvidia-docker2-deprecated
二是,安装nvidia-container-toolkit,又名nvidia-docker2,后添加—gpus参数来使用
安装:
https://github.com/NVIDIA/nvidia-docker#ubuntu-16041804-debian-jessiestretchbuster
使用:
https://github.com/NVIDIA/nvidia-docker#usage
三是,安装nvidia-container-runtime,在首次运行时添加—runtime=nvidia参数,后续启动、结束都不需要再加。【推荐】
优点:docker19.03之后,不再需要安装nvidia-docker了。只安装NVIDIA-CONTAINER-RUNTIME就可以使用了,并且支持docker-compose。
官方地址为:https://nvidia.github.io/nvidia-container-runtime/
二、探索安装
-
下载GPU的驱动
在NVIDIA驱动程序页面下载对应的驱动。 -
安装NVIDIA-CONTAINER-RUNTIME
在https://nvidia.github.io/nvidia-container-runtime/查看支持的操作系统和版本,并根据对应选项,添加源,因为我是centos7,所以添加方式为:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo
然后直接yum install 就可以了
sudo yum install nvidia-container-runtime
进行测试,如果能成功出现显卡信息就可以了
docker run -it --rm --gpus all centos nvidia-smi
- 到此教程就结束了?
等等,你不是前面说问题很多嘛,这不有手就行?
如果你的网络够好,也能访问github确实就结束了,但是我使用的是实验室的服务器,校园网的速度感人,以及校园网竟然屏蔽了github的访问,导致我运行命令
sudo yum install nvidia-container-runtime
出现下图的问题
所以问题就是我要yum install 但是nvidia-container-runtime的源是github,但我又不能访问github,而且这是github的源 repo并不是github上的项目,我还无法从gitee去创建它的镜像
三、另辟蹊径
参考:centos 离线安装nvidia docker
有人说对github进行host替换,经过尝试无果,最终搜索发现可以使用离线的方式进行nvidia-container-runtime
1.磨刀砍柴
严格模式:两台同样配置,同样环境的服务器、例如:gcc cuda cmake版本等都完全相同
简单模式:两台安装了相同版本系统的服务器,例如我的两台都是centos 7
这里我使用了简单模式,因为复杂模式太过复杂
我的一台为实验室服务器 (目标机)一台为租用的腾讯云(借用机)
2.借鸡生蛋
以下操作在腾讯云(借用机)中执行:
添加源 repo
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo
接下来需要从源去下载rpm包,但不进行安装
参考:yum 下载全量依赖 rpm 包及离线安装(终极解决方案)
强推上面这篇文章,再次致敬该文章的作者。
插曲:我第一次使用的是上面这篇文章使用的方法三,仅下载到了三个最主要的包,然后在用rpm进行安装时提示缺少相关的依赖,虽然能够通过忽略依赖的方式强制安装,但仍无法在docker中使用gpu,故而弃置。
这次介绍可以下载该软件全部依赖的方法:
#yum deplist 包名
yum deplist nvidia-container-runtime
#展示包的全部依赖
sudo yum -y install yum-utils
#安装 yum-utils
mkdir ~/software_packages
cd ~/software_packages
repotrack nvidia-container-runtime
#此时会将软件的所有依赖包下载到 ~/software_packages
可以看到下载了全部的依赖包,有100多个
这时候将 ~/software_packages 下的文件打包下载
cd ~
tar -zcvf software_packages.tar.gz ~/software_packages
3.斗转星移
此时,登录实验室服务器(目标机),上传刚刚打包的文件,进行解压
rz
tar -zxvf software_packages.tar.gz ~/software_packages
进入解压的目录离线安装,一定要选择 采用 *.rpm的方式,会自动解决依赖
cd ~/software_packages
# 离线安装
$ rpm -Uvh --force --nodeps *.rpm
whereis nvidia-container-runtime
#在上图可以看到系统里已经有相关文件了
四、测试总结
docker run -v $(pwd):/workspace/data --gpus all \
-it voidful/wav2vec-u:1.0.0 bash
#成功启动container
#进入container后输入,nvidia-smi
nvidia-smi
#成功显示显卡信息
本文主要介绍了一种离线安装docker容器运行gpu所需工具的方法,在所需的nvidia工具方面共有三种,分别是nvidia-docker、nvidia-container-toolkit、nvidia-container-runtime,我们直接采用了最新的第三种工具nvidia-container-runtime,并从在线安装此工具的过程中逐步揭开了离线安装的神秘面纱。使用yum 离线下载软件包及相关依赖的方法同样有三种,分别是downloadonly、yumdownloader、repotrack,我们直接采用了最全最稳定的第三种方式repotrack,获取了软件包及其全部依赖。最终采用rpm离线方式,完成了在目标机上的软件安装,探索了一条新的离线软件安装方式,在container-runtime包离线安装上得到了应用。
致谢
特别鸣谢以下作者的思想源泉,排名不分先后
@voidful voidful
@叨叨软件测试
@theITcat
@huang yong
@三川三一宁