详细记录深度学习工作站环境搭建过程

详细记录深度学习工作站环境搭建过程

最近搭建工作站环境,好久没搭环境,各种坑又被踩出来了,在此记录一下。

工作站是DELL poweredge R740,双图形卡Quadro RTX 8000。工作站本身不带任何系统的

因为难免需要图形界面的时候,而带gui的ubuntu因为显卡驱动导致的黑屏花屏问题实在无法解决。问题也在此记录一下:

首次安装了ubuntu20.04 STL 桌面版,第一次安装常规操作是可以在grub界面按’e’编辑Install Ubuntu,加入‘quiet splash nomodeset’ 临时禁用独显,即可进入安装程序。但本次安装完重启后直接花屏没有grub界面。有确定的解决方案欢迎评论交流分享解决方案。

然后先安装的命令行版ubuntu20.04 server,再安装图形界面

ubuntu20.04 server安装

(1) 制作ubuntu启动盘

官网https://ubuntu.com/download/server下载ubuntu-20.04.2-live-server-amd64.iso

https://rufus.ie/ ,使用官网推荐的rufus或者UltraISO软碟通,加载镜像制作启动盘。

server版本安装比较简单,注意以下:

  • 禁用 nouveau 驱动:

    创建文件: sudo vim /etc/modprobe.d/blacklist-nouveau.conf

    添加如下内容:

    blacklist nouveau
    options nouveau modeset=0
    

    再更新一下

    sudo update-initramfs -u

    然后重启系统。确认下Nouveau是已经被你干掉,使用命令: lsmod | grep nouveau

  • (安装时可以换apt源,安装时注意选择安装ssh),安装完重启后也会遇到显卡驱动的问题,同样,在grub界面按’e’编辑Install Ubuntu,加入‘quiet splash nomodeset’ 临时禁用独显。然后进入命令行界面。

安装完后官网下载nvidia驱动,scp命令传输驱动安装文件到服务器,ssh远程安装nvidia driver,然后安装gnome桌面。都有很多教程可以使用,请自查。

安装完gnome桌面后,记得关闭系统休眠,关闭息屏。

(2) 进入系统后,发现ctrl + alt + T没有终端,直接安装gnome terminor:https://www.jb51.net/os/Ubuntu/461806.html

(3) 安利两个工具:XShell 和 Xftp,为了ssh远程方便,快速传文件

ssh远程工具:XShell

win10 - ubuntu ftp文件传输工具:Xftp

两个工具下载的6版,家庭和学校免费版即可:
https://www.netsarang.com/zh/free-for-home-school/

(4) 然后可以通过xrdp方式用win10远程ubuntu服务器
https://yq.aliyun.com/articles/762186

(5) 安装完显卡驱动后,安装cuda、cudnn、anaconda、pytorch

cuda

cuda与显卡驱动的对应关系,确定安装cuda版本:

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

下载cudn:https://developer.nvidia.com/cuda-11.2.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=2004&target_type=runfilelocal

配置cuda环境变量:https://blog.csdn.net/xinxi009gyx/article/details/80994948

nvcc - V查看cuda是否安装成功

cudnn

下载cudnn:https://developer.nvidia.com/rdp/cudnn-download

我们从Nvidia官网上下载下来的cudnn for linux的文件格式是.solitairetheme8,想要解压的话需要先转成tgz格式再解压:

cp  cudnn-8.0-linux-x64-v5.1.solitairetheme8 cudnn-8.0-linux-x64-v5.1.tgz
tar -xvf cudnn-8.0-linux-x64-v5.1.tgz

cudnn环境配置:

sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h 
sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*

查看 CUDA 版本:

cat /usr/local/cuda/version.txt

查看 CUDNN 版本:

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
安装pytorch 、torchvision

安装好anaconda后,创建虚拟环境:

conda create -n "workspace" python=xxx

激活虚拟环境:

conda activate workspace

离线下载pytorch 和 torchvision比较快:https://download.pytorch.org/whl/torch_stable.html

然后pip install xxx.whl安装

最后…

测试GPU - pytorch
import torch
flag = torch.cuda.is_available()
print(flag)

ngpu= 1
# Decide which device we want to run on
device = torch.device("cuda:0" if (torch.cuda.is_available() and ngpu > 0) else "cpu")
print(device)
print(torch.cuda.get_device_name(0))
print(torch.rand(3,3).cuda()) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值