详细记录深度学习工作站环境搭建过程
最近搭建工作站环境,好久没搭环境,各种坑又被踩出来了,在此记录一下。
工作站是DELL poweredge R740,双图形卡Quadro RTX 8000。工作站本身不带任何系统的
因为难免需要图形界面的时候,而带gui的ubuntu因为显卡驱动导致的黑屏花屏问题实在无法解决。问题也在此记录一下:
首次安装了ubuntu20.04 STL 桌面版,第一次安装常规操作是可以在grub界面按’e’编辑Install Ubuntu,加入‘quiet splash nomodeset’ 临时禁用独显,即可进入安装程序。但本次安装完重启后直接花屏没有grub界面。有确定的解决方案欢迎评论交流分享解决方案。
然后先安装的命令行版ubuntu20.04 server,再安装图形界面
ubuntu20.04 server安装
(1) 制作ubuntu启动盘
官网https://ubuntu.com/download/server下载ubuntu-20.04.2-live-server-amd64.iso
https://rufus.ie/ ,使用官网推荐的rufus或者UltraISO软碟通,加载镜像制作启动盘。
server版本安装比较简单,注意以下:
-
禁用 nouveau 驱动:
创建文件: sudo vim /etc/modprobe.d/blacklist-nouveau.conf
添加如下内容:
blacklist nouveau options nouveau modeset=0
再更新一下
sudo update-initramfs -u
然后重启系统。确认下Nouveau是已经被你干掉,使用命令:
lsmod | grep nouveau
-
(安装时可以换apt源,安装时注意选择安装ssh),安装完重启后也会遇到显卡驱动的问题,同样,在grub界面按’e’编辑Install Ubuntu,加入‘quiet splash nomodeset’ 临时禁用独显。然后进入命令行界面。
安装完后官网下载nvidia驱动,scp命令传输驱动安装文件到服务器,ssh远程安装nvidia driver,然后安装gnome桌面。都有很多教程可以使用,请自查。
安装完gnome桌面后,记得关闭系统休眠,关闭息屏。
(2) 进入系统后,发现ctrl + alt + T没有终端,直接安装gnome terminor:https://www.jb51.net/os/Ubuntu/461806.html
(3) 安利两个工具:XShell 和 Xftp,为了ssh远程方便,快速传文件
ssh远程工具:XShell
win10 - ubuntu ftp文件传输工具:Xftp
两个工具下载的6版,家庭和学校免费版即可:
https://www.netsarang.com/zh/free-for-home-school/
(4) 然后可以通过xrdp方式用win10远程ubuntu服务器
https://yq.aliyun.com/articles/762186
(5) 安装完显卡驱动后,安装cuda、cudnn、anaconda、pytorch
cuda
cuda与显卡驱动的对应关系,确定安装cuda版本:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
下载cudn:https://developer.nvidia.com/cuda-11.2.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=2004&target_type=runfilelocal
配置cuda环境变量:https://blog.csdn.net/xinxi009gyx/article/details/80994948
nvcc - V
查看cuda是否安装成功
cudnn
下载cudnn:https://developer.nvidia.com/rdp/cudnn-download
我们从Nvidia官网上下载下来的cudnn for linux的文件格式是.solitairetheme8,想要解压的话需要先转成tgz格式再解压:
cp cudnn-8.0-linux-x64-v5.1.solitairetheme8 cudnn-8.0-linux-x64-v5.1.tgz
tar -xvf cudnn-8.0-linux-x64-v5.1.tgz
cudnn环境配置:
sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*
查看 CUDA 版本:
cat /usr/local/cuda/version.txt
查看 CUDNN 版本:
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
安装pytorch 、torchvision
安装好anaconda后,创建虚拟环境:
conda create -n "workspace" python=xxx
激活虚拟环境:
conda activate workspace
离线下载pytorch 和 torchvision比较快:https://download.pytorch.org/whl/torch_stable.html
然后pip install xxx.whl安装
最后…
测试GPU - pytorch
import torch
flag = torch.cuda.is_available()
print(flag)
ngpu= 1
# Decide which device we want to run on
device = torch.device("cuda:0" if (torch.cuda.is_available() and ngpu > 0) else "cpu")
print(device)
print(torch.cuda.get_device_name(0))
print(torch.rand(3,3).cuda())