深度学习服务器环境配置——NVIDIA显卡驱动、CUDA、Anaconda、Pytorch安装。

梧桐也

已于 2024-01-16 20:56:15 修改

阅读量1.8k

点赞数 33

分类专栏：人工智能文章标签：深度学习图像处理 centos

于 2024-01-16 20:30:24 首次发布

本文链接：https://blog.csdn.net/2301_76790188/article/details/135624278

版权

人工智能专栏收录该内容

1 篇文章 0 订阅

订阅专栏

#这是个人学习经历，小白学习的经验的总结。也是我的第一篇文章，小小的纪念。

前言

在学校有幸加入课题组后，学习需要用到服务器，远程登录和配置服务器。基于已有的Linux知识和粗浅的深度学习知识，第一次实际应用于配置服务器。服务器是学校提供的，过程颤颤巍巍，摸着石头过河。文章是服务器配置成功后写的，现学现卖，算是一个比较完整的的配置过程。希望能够帮助到有需要的你。

一、连接服务器

个人的电脑是Windows系统，学校服务器是Linux系统Centos 7发行版。两者远程连接可使用的软件很多，这里使用的为Xshell 7（Free for Home/School），该版本为免费版，账号登陆验证即可永久使用。连接服务器使用SSH协议，个人电脑传输文件至服务器使用SFTP协议。已有Linux系统用户账号和密码，使用Xshell 7新建会话。

SFTP协议同理。

二、查看服务器当前系统配置

参考：https://javaforall.cn/152623.html

1.查看系统版本信息

因为不同系统版本之间会存在差异，所以在进行安装前需查看系统版本信息，在查看系统版本信息时最开始了解到的查询命令为

lsb_release -a

bash: lsb_release: 未找到命令...

但是反复输入运行几次后没有结果，想起老师说的学校服务器的发行版本为Centos。上网搜索后才知道原因可能就是该命令不适用于Linux的所有发行版。

输入：

cat /etc/redhat-release

执行命令后输出：

CentOS Linux release 7.9.2009 (Core)

当前系统版本为：Centos 7.9.2009

2.查看内核信息

输入：

cat /proc/version

执行命令后输出：

Linux version 3.10.0-957.el7.x86_64 (mockbuild@kbuilder.bsys.centos.org) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-36) (GCC) ) #1 SMP Thu Nov 8 23:39:32 UTC 2018

这个命令可以看到Linux内核的具体信息，但是不能看出是CentOS的哪个版本。

我们可以看到该系统使用的是Linux 3.10.0内核的64为操作系统。

3.查看显卡信息

最开始需要使用服务器时，向学校申请，学校回复资源紧张，服务器都被其他老师占用着，说可能申请不到（我导师是学校新人，大家懂的都懂），经过老师和学校商量，我们使用的仅是服务器GPU资源才得到和其他老师共同使用的权限，因为想着最开始就有老师使用，显卡的驱动这些应该是安装的了，但意外就出现了，后面会详细说明。

我最开始了解到查询显卡信息的命令只有下面这条。

输入：

lspci | grep -i nvidia

执行命令后输出：

b1:00.0 VGA compatible controller: NVIDIA Corporation Device 2208 (rev a1)
b1:00.1 Audio device: NVIDIA Corporation Device 1aef (rev a1)

需要在该网址 http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci 输入2208后才能查看到具体信息

可以看到显卡型号为GeForce RTX 3080 Ti。

查询完后因为给我们配置环境的时间也比较短，安装过程需要重启服务器，会影响其他人使用，所以就赶着到CUDA官网下载安装，接着安装剩下的东西，一路都很顺利，直觉告诉我很顺利就要出错，恰好到最后测试是否配置成功时就出现错误，不是预期结果。重复了好几次步骤都是错误。在后来的检查过程中才发现是服务器只是简单的“物理安装”了显卡，连最基本驱动都没有安装（回想起最开始学校说资源紧张，我就气愤）。

三、下载安装NVIDIA显卡驱动

这一步就是解决前面出现的意外，在解决过程中也学到新的查看显卡的命令

输入：

nvidia-smi

执行命令后输出：

Tue Jan 16 16:22:26 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.146.02             Driver Version: 535.146.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 Ti     Off | 00000000:B1:00.0 Off |                  N/A |
| 39%   47C    P0             105W / 350W |      0MiB / 12288MiB |      2%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

在没有安装驱动前执行该命令没有输出，最后测试结果为错误（这个失误苦了我好久，直接焦头烂额，汗流浃背了，老弟！）。

解决好问题后继续配置（计科小强——愈挫愈勇）。

四、下载安装CUDA

浏览器输入 CUDA Toolkit 12.3 Update 2 Downloads | NVIDIA Developer 进入下载页面

根据自己的服务器相关信息依次选择，到这里有三种Installer Type，rmp为Linux系统的本身的安装方式（在下懒不是很懂，怕出错难解决），我们选择下载runfile本地文件安装。

Base Installer处是安装所需的命令，

输入：

wget https://developer.download.nvidia.com/compute/cuda/12.3.2/local_installers/cuda_12.3.2_545.23.08_linux.run

直接下载所需安装包

等待下载完成，下载完成后直接安装该文件，

输入：

sudo sh cuda_12.3.2_545.23.08_linux.run

因为安装该文件需要sudo权限，若没有可以权限使用命令切换至root用户然后在进行安装，

su root

运行命令后

根据提示选择然后进行安装。

安装完成后需要将CUDA写入环境变量，在~/.bashrc文件（仅当前用户生效）的末尾写入命令。

输入：

vim ~/.bashrc

使用vim进入~/.bashrc文件，在文件末尾添加以下命令

export PATH=$PATH:/usr/local/cuda-12.3/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.3/lib64

关于vim的使用可参照：https://blog.csdn.net/Sevel7/article/details/105189768

最后执行文件并刷新环境变量

输入：

source ~/.bashrc

安装完成,使用命令查看是否成功

输入：

nvcc -V #大写V

执行命令后输出;

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

安装成功。

五、安装Anaconda

Anaconda的作用我就不在过多阐述，大家对它的褒贬不一，简单来说让环境创建管理更加方便。

点击官网连接 https://www.anaconda.com/download 可以直接下载适合的版本，然后赋予执行权限。

输入:

sudo chmod +x Anaconda3-2023.09-0-Linux-x86_64.sh

然后进行安装

sudo sh Anaconda3-2023.09-0-Linux-x86_64.sh

注意，安装路径默认是当前用户的home目录下的anaconda3，例如：/home/test_user/anaconda3。在询问是否执行conda initialization时，选择yes，这样就不需要自己配置环境变量了（默认写入~/.bashrc文件）。

刷新环境变量

source ~/.bashrc

验证安装是否成功，在命令行输入

which conda

输出conda的位置路径即算成功。

六、安装Pytorch框架

PyTorch 是一种用于构建深度学习模型的功能完备框架。使用 Python 编写，因此对于大多数深度学习开发者而言，学习和使用起来相对简单。

浏览器找到Pytorch官网 https://pytorch.org/ 页面，在页面中间位置可以找到下载

如果没找到合适版本的Pytorch，可以点击右下角按钮，寻找相应的版本，进行下载安装。

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

安装完成后，进行测试是否安装成功

依次输入：

python

import torch

torch.cuda.is_available()

若结果输出为True，即为成功。

在之前的意外里，我因为粗心大意没有安装显卡驱动，导致结果一直为False，直到反复测试检查好多次才发现问题所在。

总结：

一个简单的问题没有发现，导致最终测试结果一直错误，下次需要更细心一些。

参考：

https://blog.csdn.net/weixin_42364196/article/details/127463403

https://blog.csdn.net/ZQHCSD/article/details/115478822

梧桐也

关注

33
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录