centos 7 安装nvidia-container-runtime

写在前面

这是我第一次写一个教程,或者说是第一次在CSDN发表一个技术文章,以下内容记录了我解决此问题的过程。我并非此领域的大牛,仅是站在了巨人的肩膀上----参考了许多相关教程,文中提到的技术均已指明来源,有的可能并非该技术的源头地址,但对我来说可能是最有用的部分,致谢文中提到所有文章的作者。

最近在搞一个语音识别的项目:wav2vec-U,介于fairseq框架所需的依赖太多而杂,久久没能完成复现,皇天不负有心人终于让我找到一个大牛(@voidful voidful)已经在docker上搭建好的环境,然docker之前也从未接触过,连夜学习了一些基础的命令,按照菜鸟教程:centos安装docker上的方法装好了docker,在我欣喜若狂的pull了大佬的image后,开始创建container

docker run -v $(pwd):/workspace/data --gpus all -it voidful/wav2vec-u:1.0.0 bash
#报了下面的错误
could not select device driver "" with capabilities: [[gpu]].
ERRO[0000] error waiting for container: context canceled 

搜索发现,缺少docker使用GPU的nvidia的工具包支持
docker: Error response from daemon: could not select device driver ““ with capabilities: gpu

以上,便有了我这篇文章的来源。

一、docker所需nvidia工具包分类

参考:将nvidia添加到runtime

要使docker容器能调用本地的gpu,有三种方法:

一是,安装nvidia-docker,该方法已被官方舍弃
地址为https://github.com/NVIDIA/nvidia-docker#upgrading-with-nvidia-docker2-deprecated

二是,安装nvidia-container-toolkit,又名nvidia-docker2,后添加—gpus参数来使用
安装:
https://github.com/NVIDIA/nvidia-docker#ubuntu-16041804-debian-jessiestretchbuster
使用:
https://github.com/NVIDIA/nvidia-docker#usage

三是,安装nvidia-container-runtime,在首次运行时添加—runtime=nvidia参数,后续启动、结束都不需要再加。【推荐】

优点:docker19.03之后,不再需要安装nvidia-docker了。只安装NVIDIA-CONTAINER-RUNTIME就可以使用了,并且支持docker-compose。
官方地址为:https://nvidia.github.io/nvidia-container-runtime/

二、探索安装

参考:docker19使用GPU

  1. 下载GPU的驱动
    NVIDIA驱动程序页面下载对应的驱动。

  2. 安装NVIDIA-CONTAINER-RUNTIME
    在https://nvidia.github.io/nvidia-container-runtime/查看支持的操作系统和版本,并根据对应选项,添加源,因为我是centos7,所以添加方式为:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo

然后直接yum install 就可以了

sudo yum install nvidia-container-runtime

进行测试,如果能成功出现显卡信息就可以了

docker run -it --rm --gpus all centos nvidia-smi
  • 到此教程就结束了?

等等,你不是前面说问题很多嘛,这不有手就行?

如果你的网络够好,也能访问github确实就结束了,但是我使用的是实验室的服务器,校园网的速度感人,以及校园网竟然屏蔽了github的访问,导致我运行命令

sudo yum install nvidia-container-runtime

出现下图的问题
安装错误
所以问题就是我要yum install 但是nvidia-container-runtime的源是github,但我又不能访问github,而且这是github的源 repo并不是github上的项目,我还无法从gitee去创建它的镜像

三、另辟蹊径

参考:centos 离线安装nvidia docker
有人说对github进行host替换,经过尝试无果,最终搜索发现可以使用离线的方式进行nvidia-container-runtime

1.磨刀砍柴

严格模式:两台同样配置,同样环境的服务器、例如:gcc cuda cmake版本等都完全相同
简单模式:两台安装了相同版本系统的服务器,例如我的两台都是centos 7

这里我使用了简单模式,因为复杂模式太过复杂

我的一台为实验室服务器 (目标机)一台为租用的腾讯云(借用机)

2.借鸡生蛋

以下操作在腾讯云(借用机)中执行:
添加源 repo

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo

接下来需要从源去下载rpm包,但不进行安装
参考:yum 下载全量依赖 rpm 包及离线安装(终极解决方案)
强推上面这篇文章,再次致敬该文章的作者。

插曲:我第一次使用的是上面这篇文章使用的方法三,仅下载到了三个最主要的包,然后在用rpm进行安装时提示缺少相关的依赖,虽然能够通过忽略依赖的方式强制安装,但仍无法在docker中使用gpu,故而弃置。

这次介绍可以下载该软件全部依赖的方法:

#yum deplist 包名
yum deplist nvidia-container-runtime
#展示包的全部依赖
sudo yum -y install yum-utils
#安装 yum-utils
mkdir ~/software_packages
cd ~/software_packages
repotrack nvidia-container-runtime
#此时会将软件的所有依赖包下载到 ~/software_packages

可以看到下载了全部的依赖包,有100多个
下载的包
这时候将 ~/software_packages 下的文件打包下载

cd ~
tar -zcvf software_packages.tar.gz ~/software_packages

3.斗转星移

此时,登录实验室服务器(目标机),上传刚刚打包的文件,进行解压

rz
tar -zxvf software_packages.tar.gz ~/software_packages

进入解压的目录离线安装,一定要选择 采用 *.rpm的方式,会自动解决依赖

cd ~/software_packages
# 离线安装
$ rpm -Uvh --force --nodeps *.rpm

在这里插入图片描述

whereis  nvidia-container-runtime
#在上图可以看到系统里已经有相关文件了

四、测试总结

docker run -v $(pwd):/workspace/data --gpus all \
-it voidful/wav2vec-u:1.0.0 bash
#成功启动container
#进入container后输入,nvidia-smi
nvidia-smi
#成功显示显卡信息

本文主要介绍了一种离线安装docker容器运行gpu所需工具的方法,在所需的nvidia工具方面共有三种,分别是nvidia-docker、nvidia-container-toolkit、nvidia-container-runtime,我们直接采用了最新的第三种工具nvidia-container-runtime,并从在线安装此工具的过程中逐步揭开了离线安装的神秘面纱。使用yum 离线下载软件包及相关依赖的方法同样有三种,分别是downloadonly、yumdownloader、repotrack,我们直接采用了最全最稳定的第三种方式repotrack,获取了软件包及其全部依赖。最终采用rpm离线方式,完成了在目标机上的软件安装,探索了一条新的离线软件安装方式,在container-runtime包离线安装上得到了应用。

致谢

特别鸣谢以下作者的思想源泉,排名不分先后

@voidful voidful
@叨叨软件测试
@theITcat
@huang yong
@三川三一宁

要在CentOS 7上安装nvidia-docker,可以按照以下步骤进行操作: 1. 首先,设置nvidia-docker的存储库和GPG密钥。可以使用以下命令将存储库添加到系统中: ``` distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo ``` 2. 接下来,更新列表并安装nvidia-docker及其依赖项。可以使用以下命令完成此操作: ``` sudo yum clean expire-cache sudo yum install -y nvidia-docker2 ``` 3. 安装完成后,重新启动docker服务以使更改生效: ``` sudo systemctl restart docker ``` 4. 最后,您可以使用以下命令来测试nvidia-docker是否安装成功: ``` sudo nvidia-docker run --rm --gpus all nvidia/cuda:11.2-base nvidia-smi ``` 请注意,这些步骤是基于CentOS 7的安装过程。如果您需要其他操作系统的安装指南,可以参考Docker官方文档\[3\]中提供的链接。 参考资料: \[2\] Linux安装docker \[3\] Docker官方文档 #### 引用[.reference_title] - *1* *2* [CentOS7服务器部署nvidia-docker](https://blog.csdn.net/qq_29183811/article/details/123558987)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Ubuntu16(Centos7) dockernvidia-docker安装及使用](https://blog.csdn.net/mzpmzk/article/details/89097489)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值