重装LINUX系统并且部署Docker服务
安装Centos 或者 Ubuntu 系统
-
使用Rufus制作Ubuntu启动盘
-
CentOS 7 禁止系统休眠
修改文件:
vi /etc/default/grub
在文件末尾增加:
pcie_aspm=off
- 默认命令行模式启动
systemctl set-default multi-user.target //设置成命令模式
systemctl set-default graphical.target //设置成图形模式
- 打开图形界面
startx之后ctrl+alt+f1/f2
- 考虑镜像恢复技术,系统还原
安装Nvidia 驱动
参考https://toutiao.io/posts/1aaj39/preview
-
安装准备
- 前提机器上面有支持CUDA的Nvidia GPU,查看支持CUDA的GPU列表:
lspci | grep -i nvidia
- 验证系统是否有GCC编译环境
gcc -v
没有的话需要先安装GCC,Centos7的最小化安装一般勾选上开发软件都会自动安装GCC
-
下载
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l9iRTUHE-1687570143868)(https://dlut-cg.org/wp-content/uploads/2023/03/截图-2023-02-28-10-11-53-300x166.png)] -
禁用nouveau
- 查看系统是否正在使用nouveau
lsmod | grep nouveau
- 如果有显示内容,则进行以下的步骤: Centos7禁用方法
#重建内核(centos7) sudo vi /etc/default/grub 添加`rd.driver.blacklist=nouveau` 在linux 开头那一句 #新建一个配置文件 sudo vim /etc/modprobe.d/blacklist-nouveau.conf #写入以下内容 blacklist nouveau options nouveau modeset=0 #保存并退出 :wq #备份当前的镜像 sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak #建立新的镜像 sudo dracut /boot/initramfs-$(uname -r).img $(uname -r) #重启 sudo reboot #最后输入上面的命令验证 lsmod | grep nouveau
- 查看系统是否正在使用nouveau
-
安装
chmod +x NVIDIA-Linux-x86_64-410.73.run
sudo ./NVIDIA-Linux-x86_64-410.73.run
- 验证
nvidia-smi
安装 Docker 以及 Nvidia-Docker
-
挂载硬盘
# 备份 sudo cp /etc/fstab /etc/fstab.bak # 查看UUID sudo blkid /dev/vdb1 # 写入fstab文件 sudo echo UUID=468f89f6-32b7-432f-bd98-34d6fd8ad375 /data ext4 defaults 0 0 >> /etc/fstab # 重启 sudo reboot
-
安装Docker
- Setup the official Docker CE repository:
sudo yum-config-manager --add-repo=https://download.docker.com/linux/centos/docker-ce.repo
- Now you can observe the packages available from the docker-ce repo:
sudo yum repolist -v
- Install the containerd.io package:
sudo yum install -y https://download.docker.com/linux/centos/7/x86_64/stable/Packages/containerd.io-1.4.3-3.1.el7.x86_64.rpm
- And now install the latest docker-ce package:
sudo yum install docker-ce -y
- Ensure the Docker service is running with the following command:
sudo systemctl --now enable docker
- And finally, test your Docker installation by running the hello-world container:
sudo docker run --rm hello-world
- Setup the official Docker CE repository:
-
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html
-
安装Nvidia-Container-toolkit
- Install the nvidia-container-toolkit package (and dependencies) after updating the package listing:
sudo yum clean expire-cache sudo yum install -y nvidia-container-toolkit
- Configure the Docker daemon to recognize the NVIDIA Container Runtime:
sudo nvidia-ctk runtime configure --runtime=docker # Restart the Docker daemon to complete the installation after setting the default runtime: sudo systemctl restart docker # Test sudo docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi
- Install the nvidia-container-toolkit package (and dependencies) after updating the package listing:
-
改变docker 默认存储位置
- 编辑 /etc/docker/daemon.json文件,注意这个文件的格式要严格按照标准格式,这地方容易产生bug
sudo vim /etc/docker/daemon.json
{ "data-root": "/Users/docker/lib/docker", # 这个位置不同机器可能略有不同 "runtimes": { "nvidia": { "args": [], "path": "nvidia-container-runtime" } } }
sudo reboot