深度学习服务器环境配置——NVIDIA显卡驱动、CUDA、Anaconda、Pytorch安装。

#这是个人学习经历,小白学习的经验的总结。也是我的第一篇文章,小小的纪念。

前言

在学校有幸加入课题组后,学习需要用到服务器,远程登录和配置服务器。基于已有的Linux知识和粗浅的深度学习知识,第一次实际应用于配置服务器。服务器是学校提供的,过程颤颤巍巍,摸着石头过河。文章是服务器配置成功后写的,现学现卖,算是一个比较完整的的配置过程。希望能够帮助到有需要的你。

一、连接服务器

个人的电脑是Windows系统,学校服务器是Linux系统Centos 7发行版。两者远程连接可使用的软件很多,这里使用的为Xshell 7(Free for Home/School),该版本为免费版,账号登陆验证即可永久使用。连接服务器使用SSH协议,个人电脑传输文件至服务器使用SFTP协议。已有Linux系统用户账号和密码,使用Xshell 7新建会话。

SFTP协议同理

二、查看服务器当前系统配置

参考:https://javaforall.cn/152623.html

1.查看系统版本信息

因为不同系统版本之间会存在差异,所以在进行安装前需查看系统版本信息,在查看系统版本信息时最开始了解到的查询命令为

lsb_release -a

bash: lsb_release: 未找到命令...

但是反复输入运行几次后没有结果,想起老师说的学校服务器的发行版本为Centos。上网搜索后才知道原因可能就是该命令不适用于Linux的所有发行版。

输入:

cat /etc/redhat-release

执行命令后输出:

CentOS Linux release 7.9.2009 (Core)

当前系统版本为:Centos 7.9.2009

2.查看内核信息

输入:

cat /proc/version

执行命令后输出:

Linux version 3.10.0-957.el7.x86_64 (mockbuild@kbuilder.bsys.centos.org) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-36) (GCC) ) #1 SMP Thu Nov 8 23:39:32 UTC 2018

这个命令可以看到Linux内核的具体信息, 但是不能看出是CentOS的哪个版本

我们可以看到该系统使用的是Linux 3.10.0内核的64为操作系统。

3.查看显卡信息

最开始需要使用服务器时,向学校申请,学校回复资源紧张,服务器都被其他老师占用着,说可能申请不到(我导师是学校新人,大家懂的都懂),经过老师和学校商量,我们使用的仅是服务器GPU资源才得到和其他老师共同使用的权限,因为想着最开始就有老师使用,显卡的驱动这些应该是安装的了,但意外就出现了,后面会详细说明。

我最开始了解到查询显卡信息的命令只有下面这条。

输入:

lspci | grep -i nvidia

执行命令后输出:

b1:00.0 VGA compatible controller: NVIDIA Corporation Device 2208 (rev a1)
b1:00.1 Audio device: NVIDIA Corporation Device 1aef (rev a1)

需要在该网址 http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci 输入2208后才能查看到具体信息

可以看到显卡型号为GeForce RTX 3080 Ti

查询完后因为给我们配置环境的时间也比较短,安装过程需要重启服务器,会影响其他人使用,所以就赶着到CUDA官网下载安装,接着安装剩下的东西,一路都很顺利,直觉告诉我很顺利就要出错,恰好到最后测试是否配置成功时就出现错误,不是预期结果。重复了好几次步骤都是错误。在后来的检查过程中才发现是服务器只是简单的“物理安装”了显卡,连最基本驱动都没有安装(回想起最开始学校说资源紧张,我就气愤)。

三、下载安装NVIDIA显卡驱动

这一步就是解决前面出现的意外,在解决过程中也学到新的查看显卡的命令

输入:

nvidia-smi

执行命令后输出:

Tue Jan 16 16:22:26 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.146.02             Driver Version: 535.146.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 Ti     Off | 00000000:B1:00.0 Off |                  N/A |
| 39%   47C    P0             105W / 350W |      0MiB / 12288MiB |      2%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

在没有安装驱动前执行该命令没有输出,最后测试结果为错误(这个失误苦了我好久,直接焦头烂额,汗流浃背了,老弟!)。

解决好问题后继续配置(计科小强——愈挫愈勇)。

四、下载安装CUDA

浏览器输入 CUDA Toolkit 12.3 Update 2 Downloads | NVIDIA Developer  进入下载页面

根据自己的服务器相关信息依次选择,到这里有三种Installer Type,rmp为Linux系统的本身的安装方式(在下不是很懂,怕出错难解决),我们选择下载runfile本地文件安装。

Base Installer处是安装所需的命令,

输入:

wget https://developer.download.nvidia.com/compute/cuda/12.3.2/local_installers/cuda_12.3.2_545.23.08_linux.run

 直接下载所需安装包

等待下载完成,下载完成后直接安装该文件,

输入:

sudo sh cuda_12.3.2_545.23.08_linux.run

因为安装该文件需要sudo权限,若没有可以权限使用命令切换至root用户然后在进行安装,

su root

运行命令后

根据提示选择然后进行安装。

安装完成后需要将CUDA写入环境变量,在~/.bashrc文件(仅当前用户生效)的尾写入命令。

输入:

vim ~/.bashrc

使用vim进入~/.bashrc文件,在文件末尾添加以下命令

export PATH=$PATH:/usr/local/cuda-12.3/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.3/lib64

关于vim的使用可参照:https://blog.csdn.net/Sevel7/article/details/105189768

最后执行文件并刷新环境变量

输入:

source ~/.bashrc

安装完成,使用命令查看是否成功

输入:

nvcc -V #大写V

执行命令后输出;

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

安装成功。

五、安装Anaconda

Anaconda的作用我就不在过多阐述,大家对它的褒贬不一,简单来说让环境创建管理更加方便。

点击官网连接 https://www.anaconda.com/download 可以直接下载适合的版本,然后赋予执行权限。

输入:

sudo chmod +x Anaconda3-2023.09-0-Linux-x86_64.sh

然后进行安装

sudo sh Anaconda3-2023.09-0-Linux-x86_64.sh

注意,安装路径默认是当前用户的home目录下的anaconda3,例如:/home/test_user/anaconda3。在询问是否执行conda initialization时,选择yes,这样就不需要自己配置环境变量了(默认写入~/.bashrc文件)。

刷新环境变量

source ~/.bashrc

验证安装是否成功,在命令行输入

which conda

输出conda的位置路径即算成功

六、安装Pytorch框架

PyTorch 是一种用于构建深度学习模型的功能完备框架。 使用 Python 编写,因此对于大多数深度学习开发者而言,学习和使用起来相对简单。

浏览器找到Pytorch官网 https://pytorch.org/ 页面,在页面中间位置可以找到下载

如果没找到合适版本的Pytorch,可以点击右下角按钮,寻找相应的版本,进行下载安装。

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

安装完成后,进行测试是否安装成功

依次输入:

python

import torch
torch.cuda.is_available()

若结果输出为True,即为成功。

在之前的意外里,我因为粗心大意没有安装显卡驱动,导致结果一直为False,直到反复测试检查好多次才发现问题所在。

总结:

一个简单的问题没有发现,导致最终测试结果一直错误,下次需要更细心一些。

参考:

https://blog.csdn.net/weixin_42364196/article/details/127463403

https://blog.csdn.net/ZQHCSD/article/details/115478822

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梧桐也

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值