文章目录
tips
- 如果是进行服务器的安装,那么整个安装过程建议直接在服务器本地进行,或者使用VNC进行远程连接操作,不要仅依赖于SSH连接进行。因为在安装过程中会进行许可同意和安装项目选择,仅依靠SSH无法显示相关信息,进而无法操作。
- 建议先去pytorch官网看一下支持的cuda版本,然后再选择需要安装的cuda版本,确保后续安装顺利。
一、安装NVIDIA驱动、CUDA、cuDNN
1.1 准备工作:
其他的博客的有提到过检查自己的显卡是否支持CUDA,我觉得这一步不是必需的,通过运行命令
lspci | grep -i nvidia
可以看到自己的显卡信息,我自己的输出
1a:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
1a:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)
68:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
68:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)
能显示出显卡信息就好。
1.2 安装NVIDIA驱动、CUDA
在这里我不推荐先独立安装NVIDIA驱动,一方面是因为官方的入口不好找,另一方面是因为先独立安装NVIDIA驱动还要考虑cuda的要求。
-
禁用nouveau
运行lsmod | grep nouveau
,如果有信息输出的话,进行如下操作vim /lib/modprobe.d/dist-blacklist.conf 注释掉 blacklist nvidiafb # blacklist nvidiafb 在下面添加 blacklist nouveau options nouveau modeset=0 依次按Esc :wq 保存退出vim
再次运行
lsmod | grep nouveau
,无信息输出则完成 -
安装gcc
运行命令yum install kernel-devel gcc -y
运行gcc --version
,有gcc版本信息输出,我自己的输出gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1) Copyright © 2018 Free Software Foundation, Inc. 本程序是自由软件;请参看源代码的版权声明。本软件没有任何担保; 包括没有适销性和某一专用目的下的适用性担保。
-
安装cuda和nvidia驱动
在CUDA Toolkit的网站找到自己需要的CUDA版本,下载保存到本地,注意一定要记得保存路径,一会要进入该路径进行安装。这里一定不要使用ssh,要不然有的信息看不到。
进入刚才的目录,运行命令sh cuda_****_linux.run --no-opengl-libs
下来会有一个许可信息,需要手动输入accept
接下来会选择需要安装的内容,注意“标记有x的是已选中的”,可以全选试一下,要是报错了先不要急。
按照报错信息输出的日志文件路径(图中蓝色框 /var/log/cuda-installer.log
)找到相应的日志文件,打开看到,错误原因是因为在安装NVIDIA驱动的时候出错了。
[ERROR]: Install of driver component failed.
[ERROR]: Install of 465.19.01 failed, quitting
这时候重新运行sh cuda_****_linux.run --no-opengl-libs
,再输入accept,取消勾选Driver,就可以安装CUDA Toolkit了。这时候会给出一条命令提示,按照命令提示(蓝色框下面那句)就可以单独安装相对应的NVIDIA 驱动了,即运行sh cuda_****_linux.run --silent --driver
。到这里,我们就成功地安装了CUDA和相对应的驱动。
1.3 安装cuDNN
进入cuDNN的下载页面,选择相对应的cuDNN进行安装。
如果不知道选哪一个可以先不装,等完成 2.2 安装PyTorch 之后再安装即可
如果已完成可以依次运行conda activate torch
和 conda list
,向上翻,如下图所示,即可找到cuDNN版本
在下载完成之后解压缩,进入内部可以看到 /include
和 /lib64
两个目录,分别复制里边的文件合并到
/anaconda安装目录/include
和 /anaconda安装目录/lib64
即可。
二、安装anaconda、PyTorch
2.1 安装anaconda
进入安装目录,运行命令
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.02-Linux-x86_64.sh
bash Anaconda3-2020.02-Linux-x86_64.sh
vim /etc/profile
在最后添加语句:
export ANACONDA_PATH=自己的anaconda安装目录
export PATH=$PATH:$ANACONDA_PATH/bin
按Esc :wq推出vim编辑器
运行命令conda create --name torch python=3.8
,创建一个新的环境torch,安装pytorch,如有确认选择y
完成后运行conda info -e
,可以查看已创建的环境,例如我的输出
conda info -e
# conda environments:
#
base * /home/*****/anaconda3
torch /home/*****/anaconda3/envs/torch
运行conda activate torch
激活torch环境,为安装pytorch做准备
2.2 安装PyTorch
前往PyTorch官网找到对应版本的安装命令,这里以11.3为例
运行命令conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
,即可进行安装
如果速度较慢的话可以采用国内的镜像源,添加镜像源的方法可自行搜索,较简单。注意,添加镜像源后,运行命令需要去掉后缀部分,改为conda install pytorch torchvision torchaudio cudatoolkit=11.3
总结
环境搭建问题还是比较麻烦的,该博客是在我完成搭建并成功试用之后进行记录的,其中可能存在有疏漏之处,望诸位小伙伴发现问题及时指正,让更多的小伙伴少踩坑~