UCloud Ubuntu 18.04 配置GPU环境踩坑指南,包括驱动,CUDA,Docker,Nvidia-Docker等

  • 设备:NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
# Ucloud Ubuntu 18.04 GPU 环境 Driver,Cuda,Docker,Nvidia-docker 安装记录


#############################################################
# 部分1 参考https://docs.ucloud.cn/gpu/operation/ubuntu18_cuda
# 检查GPU设备识别
sudo lspci | grep NVIDIA

# 屏蔽开源驱动
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
# 添加如下内容
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
# 更新并重启
sudo update-initramfs -u
sudo reboot
sudo apt-get install build-essential pkg-config
# 安装内核
wget http://gpu.cn-bj.ufileos.com/linux-headers-4.15.1-041501-generic_4.15.1-041501.201802031831_amd64.deb
wget http://gpu.cn-bj.ufileos.com/linux-headers-4.15.1-041501_4.15.1-041501.201802031831_all.deb
wget http://gpu.cn-bj.ufileos.com/linux-image-4.15.1-041501-generic_4.15.1-041501.201802031831_amd64.deb
sudo dpkg -i *.deb
sudo reboot
# 查看
uname -r 

# 安装驱动
https://www.nvidia.com/Download/index.aspx?lang=en-us # 搜合适的,我选的是下面的版本
bash NVIDIA-Linux-x86_64-440.118.02.run 

# 查看驱动状态
sudo nvidia-smi

# 安装cuda库,这里装的是10.2
wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
sudo sh cuda_10.2.89_440.33.01_linux.run



#############################################################
# 部分2 装docker 参考官网 https://docs.docker.com/engine/install/ubuntu/
sudo apt-get update
sudo apt-get install \
  apt-transport-https \
  ca-certificates \
  curl \
  gnupg \
  lsb-release

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
echo \
  "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

sudo apt-get update
 sudo apt-get install docker-ce docker-ce-cli containerd.io

# 测试
sudo docker run hello-world
# 测试GPU
sudo docker run -it --rm --gpus all ubuntu nvidia-smi



##################################################################
# 部分3 安装运行时辅助 个人感觉似乎也没啥用 这部分或许可以省略直接到下一步 参考https://blog.csdn.net/BigData_Mining/article/details/104991349
vim nvidia-container-runtime-script.sh 
# 添加内容
sudo curl -s -L https://nvidia.github.io/nvidia-container-runtime/gpgkey | \
  sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
sudo curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-runtime.list
sudo apt-get update
# 执行脚本
sh nvidia-container-runtime-script.sh

apt-get install nvidia-container-runtime

# 查看
which nvidia-container-runtime-hook



#############################################################
# 部分4 安装 nvidia-docker 参考https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker
curl https://get.docker.com | sh \
  && sudo systemctl --now enable docker
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
   && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker
# 测试
sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
  • 效果图
    在这里插入图片描述
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值