详细记录深度学习工作站环境搭建过程

详细记录深度学习工作站环境搭建过程

最近搭建工作站环境,好久没搭环境,各种坑又被踩出来了,在此记录一下。

工作站是DELL poweredge R740,双图形卡Quadro RTX 8000。工作站本身不带任何系统的

因为难免需要图形界面的时候,而带gui的ubuntu因为显卡驱动导致的黑屏花屏问题实在无法解决。问题也在此记录一下:

首次安装了ubuntu20.04 STL 桌面版,第一次安装常规操作是可以在grub界面按’e’编辑Install Ubuntu,加入‘quiet splash nomodeset’ 临时禁用独显,即可进入安装程序。但本次安装完重启后直接花屏没有grub界面。有确定的解决方案欢迎评论交流分享解决方案。

然后先安装的命令行版ubuntu20.04 server,再安装图形界面

ubuntu20.04 server安装

(1) 制作ubuntu启动盘

官网https://ubuntu.com/download/server下载ubuntu-20.04.2-live-server-amd64.iso

https://rufus.ie/ ,使用官网推荐的rufus或者UltraISO软碟通,加载镜像制作启动盘。

server版本安装比较简单,注意以下:

  • 禁用 nouveau 驱动:

    创建文件: sudo vim /etc/modprobe.d/blacklist-nouveau.conf

    添加如下内容:

    blacklist nouveau
    options nouveau modeset=0
    

    再更新一下

    sudo update-initramfs -u

    然后重启系统。确认下Nouveau是已经被你干掉,使用命令: lsmod | grep nouveau

  • (安装时可以换apt源,安装时注意选择安装ssh),安装完重启后也会遇到显卡驱动的问题,同样,在grub界面按’e’编辑Install Ubuntu,加入‘quiet splash nomodeset’ 临时禁用独显。然后进入命令行界面。

安装完后官网下载nvidia驱动,scp命令传输驱动安装文件到服务器,ssh远程安装nvidia driver,然后安装gnome桌面。都有很多教程可以使用,请自查。

安装完gnome桌面后,记得关闭系统休眠,关闭息屏。

(2) 进入系统后,发现ctrl + alt + T没有终端,直接安装gnome terminor:https://www.jb51.net/os/Ubuntu/461806.html

(3) 安利两个工具:XShell 和 Xftp,为了ssh远程方便,快速传文件

ssh远程工具:XShell

win10 - ubuntu ftp文件传输工具:Xftp

两个工具下载的6版,家庭和学校免费版即可:
https://www.netsarang.com/zh/free-for-home-school/

(4) 然后可以通过xrdp方式用win10远程ubuntu服务器
https://yq.aliyun.com/articles/762186

(5) 安装完显卡驱动后,安装cuda、cudnn、anaconda、pytorch

cuda

cuda与显卡驱动的对应关系,确定安装cuda版本:

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

下载cudn:https://developer.nvidia.com/cuda-11.2.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=2004&target_type=runfilelocal

配置cuda环境变量:https://blog.csdn.net/xinxi009gyx/article/details/80994948

nvcc - V查看cuda是否安装成功

cudnn

下载cudnn:https://developer.nvidia.com/rdp/cudnn-download

我们从Nvidia官网上下载下来的cudnn for linux的文件格式是.solitairetheme8,想要解压的话需要先转成tgz格式再解压:

cp  cudnn-8.0-linux-x64-v5.1.solitairetheme8 cudnn-8.0-linux-x64-v5.1.tgz
tar -xvf cudnn-8.0-linux-x64-v5.1.tgz

cudnn环境配置:

sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h 
sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*

查看 CUDA 版本:

cat /usr/local/cuda/version.txt

查看 CUDNN 版本:

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
安装pytorch 、torchvision

安装好anaconda后,创建虚拟环境:

conda create -n "workspace" python=xxx

激活虚拟环境:

conda activate workspace

离线下载pytorch 和 torchvision比较快:https://download.pytorch.org/whl/torch_stable.html

然后pip install xxx.whl安装

最后…

测试GPU - pytorch
import torch
flag = torch.cuda.is_available()
print(flag)

ngpu= 1
# Decide which device we want to run on
device = torch.device("cuda:0" if (torch.cuda.is_available() and ngpu > 0) else "cpu")
print(device)
print(torch.cuda.get_device_name(0))
print(torch.rand(3,3).cuda()) 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 无盘工作站及其原理 1.1 无盘工作站 无盘工作站是没有硬盘的计算机终端。它本身不含有硬存储设备,机器引导时需要借助网络上的服务器来传输操作系统启动文件到本地内存,才可以完成启动。因此,无盘工作站必须具有CPU、主板、内存、网卡和远程启动设备。远程启动设备主要以芯片的形式固化或接插在网卡上,在系统启动时负责连接服务器,获取IP地址,指导服务器上的操作系统启动文件到本地内存的传输。目前,远程启动芯片主要有RPL和PXE两种,后者为前者的升级版,目前正在被广泛使用。 1.2 PXE芯片启动原理 PXE芯片在远程启动时,首先要进行一个DHCP会话过程来获取一个IP地址和相关信息,以便进行后续的文件传送;IP地址获取成功后,PXE芯片触发TFTP会话过程,根据DHCP过程获取的相关信息向服务器请求启动文件,服务器接到请求后,根据本地策略,发送相应的启动文件,工作站接收到启动文件后,开始本地启动过程。 以上是PXE芯片无盘工作站启动过程的简单描述,DHCP协议的相关内容可参考RFC2131标准化文档,TFTP协议的相关内容可参考RFC1350标准化文档。 对于Linux操作系统来说,PXE所需要下载的启动文件是配置文件和内核文件。其中,配置文件在DHCP应答报文中包含,通过TFTP会话过程获取;内核文件的名称和位置在配置文件中给出,同样需要通过TFTP会话过程获取;内核文件获取成功后,系统开始进行本地启动,当启动过程进行到需要装载文件系统时,PXE会根据配置文件,向服务器请求连接根文件系统(该文件系统为NFS网络根文件系统)所对应的服务器目录,若成功,则启动结束。下页图1-1给出了这一过程的交互模型。 Linux无盘工作站详细启动流程如下: Step 1 工作站加电,PXE芯片进行自检; Step 2 准备启动,PXE芯片发送DHCP请求; Step 3 服务器收到工作站送出的请求,发送DHCP应答,内容包括客户端的IP地址,预设网关,DNS服务器及开机映象文件(配置文件和内核)位置; Step 4 工作站上的PXE芯片根据配置文件位置,开始TFTP会话请求下载该文件; Step 5 加载映象文件,开始本地启动,挂载NFS网络根文件系统; Step 6 出现Login行,启动成功。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值