参考:安装 NVIDIA Container Toolkit — NVIDIA Container Toolkit 1.17.0 文档
先决条件
物理机安装nvidia驱动。参考:一、大模型本地部署文档(安装 NVIDIA 显卡驱动、CUDA、CUDNN)_大模型 nvdia驱动-CSDN博客
docker部署NVIDIA Container Toolkit
- 配置生产存储库:
逐行输入以下命令
$ curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkeycurl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |\
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g'|\
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
(可选)将存储库配置为使用实验性软件包:
sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list
- 从存储库更新软件包列表:
sudo apt-get update
- 安装 NVIDIA Container Toolkit 软件包:
sudo apt-get install -y nvidia-container-toolkit
- 配置docker
使用以下命令配置容器运行时:nvidia-ctk
sudo nvidia-ctk runtime configure --runtime=docker
重新启动 Docker 守护程序:
sudo systemctl restart docker
docker部署CUDA
访问nvidia/cuda Tags | Docker Hub获取cuda的版本以及系统
输入下载命令。
docker pull nvidia/cuda:11.8.0-devel-ubuntu20.04
查看镜像后,使用gpu模式启动镜像。
docker images
docker run -it --gpus all (镜像id)
显示CUDA版本为cu118,docker的GPU环境配置完成。
注意:其他docker服务想要使用GPU环境必须保证服务部署在与GPU环境所处的网络环境一致。