一、Pytorch
PyTorch是一个开源的深度学习框架,该框架由Facebook人工智能研究院的Torch7团队开发,它的底层基于Torch,但实现与运用全部是由python来完成。该框架主要用于人工智能领域的科学研究与应用开发。
官网提供了最新版本,并且提供了早期版本的安装方法
Pytorch官网:https://pytorch.org/
早期版本地址:https://pytorch.org/get-started/previous-versions/
一、GPU驱动
我们一般称显卡就是GPU,现在大部分需要使用深度学习算法的服务器使用的都是NVIDIA公司生产的显卡。常见产品系列和产品请查看链接: https://www.nvidia.cn/geforce/drivers/,官方提供了最新的显卡驱动版本,找到显卡型号就可以下载。
在win10系统下我们可以通过NVIDA控制面板查看驱动对应的版本,如下图所示:
笔记本上搭载了RTX3060显卡,驱动版本为512.36。
二、CUDA
三、cuDNN
四、GPU驱动、CUDA、cuDNN对应关系
Ubuntu GPU驱动版本 / CUDA版本 / cuDNN版本 都需要互相关联,版本不对应会报错
版本确认顺序:CUDA版本 --> CuDNN版本 --> GPU驱动版本
安装顺序:GPU驱动版本 --> CUDA版本 --> CuDNN版本
(一)确定CUDA版本
CUDA下载:https://developer.nvidia.com/cuda-toolkit-archive
官方对应文档:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
我们安装CUDA 10.0.130需要410.48以上的版本,同时可以根据CUDA下载的文件名进行判断,例:cuda_10.0.130_410.48_linux.run,表示为cuda_cuda版本号_显卡驱动最低要求版本号_操作系统名称.run。
(二)确定cuDNN版本
cuDNN下载:https://developer.nvidia.com/rdp/cudnn-archive
其中展示了对应不同CUDA版本的cuDNN,根据提示选择即可。由于我们安装的是CUDA10.0,因此我们需要找后缀是“for CUDA 10.0”。并不需要下载最新的版本,根据项目代码的要求我下载了cuDNN v7.6.4(cudnn-10.0-linux-x64-v7.6.4.38.tgz),此处需要注册账号才能下载。
(三)确定GPU驱动版本
GPU驱动历史版本下载:http://download.nvidia.com/XFree86/Linux-x86_64/
五、卸载原有驱动(如果之前安装过GPU驱动、CUDA和cuDNN)
1. GPU驱动卸载
GPU驱动安装后建议保留安装文件;
有安装文件使用第一条命令,没有安装文件使用第二条;
sudo sh NVIDIA-Linux-x86_64-390.116.run --uninstall
或
sudo /usr/bin/nvidia-uninstall
在命令行输入nvidia-smi如果没有反应或者显示找不到指令,则说明卸载成功。
2. CUDA和cuDNN卸载
以CUDA 10.0为例,直接执行以下命令,注意你需要卸载的CUDA版本更改路径。
sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl
CUDA 11.x卸载文件的位置有变化,以CUDA 11.1为例,卸载文件的命令:
sudo /usr/local/cuda-11.1/bin/cuda-uninstaller
卸载之后我们发现cuda-10.0文件夹中还有一些文件,这些是拷贝过来的cuDNN文件,将cuda-10.0文件夹删除也就完成了对应的cuDNN的卸载。
六、以Ubuntu16.04、RTX2060为例
安装GPU驱动(NVIDIA-Linux-x86_64-440.82.run)、CUDA(cuda_10.0.130_410.48_linux.run)和cuDNN
七、验证安装
1. GPU驱动
nvidia-smi
2. CUDA
nvcc -V
3. cuDNN
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
或者
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
需要注意/usr/local/cuda实际上是一个软链接,指向的是同级目录下的cuda-10.2或者cuda-11.3,有的人找不到这个软链接但是cuda依然可以使用,是因为.bashrc里面的cuda路径是cuda-10.2路径而非链接,因此在验证cuDNN是否安装成功时可以将其中的cuda改为你做安装的版本路径。(我安装过各种各样的设备,除上述应该不会有其他问题了)
八、注意事项
1. NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. (在驱动使用过程中,nvidia-smi失效)
解决方法:
step 1: sudo apt-get install dkms
step 2: sudo dkms install -m nvidia -v 410.79
410.79是nvidia版本号,需要根据自己的修改。进入/usr/src目录,找到前缀为nvidia文件夹,其附带的就是版本号。
2. Failed to verify gcc version. See log at /var/log/cuda-installer.log for details. (在Ubuntu20.04中安装CUDA10.2出现的问题)
在Ubuntu20.04中显卡驱动版本高,但安装的cuda版本低,报gcc版本过高的错误,可以参考以下链接解决问题:Ubuntu20.04安装cuda10.1_feng98ren的博客-CSDN博客