服务器上用的是cuda10.0很鸡肋,还不如9.2支持的pytorch版本多,哭死。这里准备升级到CUDA11.1这样估计又可以支持很久,并且可以支持最新的pytorch 1.9.0.
1. 查询各版本CUDA兼容支持情况
CUDA及其驱动兼容情况如下表所示。具体可参见:
当时查询如下,因此我们需要驱动版本>=450.80.02
2.下载自己版本的显卡驱动
打开该网址
选择自己的型号参数:
点击搜索,然后下载相应的版本即可。这里下载的是最新的显卡驱动。
3.下载自己版本的CUDA
打开该网址
寻找自己要找的cuda版本,然后进入版本选择界面,选择自己的参数:
4.下载cudnn的版本
打开网址
这里需要注册登录,才可以下载
5. 卸载旧的 CUDA 和 驱动
1)卸载 CUDA-8.0 Toolkit
首先将老的 CUDA-8.0 卸载掉
cd /usr/local/cuda-10.0/bin
sudo ./uninstall_cuda_10.0.pl
2)卸载老的 NVIDIA 驱动
卸载老的 NVIDIA 驱动:
sh NVIDIA-Linux-x86_64-418.56.run --uninstall
重启电脑:
reboot
6. 安装新的 CUDA 和 驱动
1)安装新版本 NVIDIA 驱动
sh NVIDIA-Linux-x86_64-470.63.01.run
有可能会出现如下提示:
这时需要关闭可视化的终端进程:
sudo /etc/init.d/lightdm stop
sudo init 3
然后重新执行上面的命令继续安装。
在安装完之后可以启动:
sudo /etc/init.d/lightdm restart
之后如果提醒pre-install脚本失败,可以继续安装,不用care。DKMS装不装都可以,我这里选择了安装,如果已经存在相关库可以选择覆盖安装,然后根据需要选择,一步步进行。
2)安装 CUDA-11.1
安装 CUDA-11.1
sh cuda_11.1.1_455.32.00_linux.run
accept
取消勾选driver在这里插入代码片
安装完成后,在用户目录下的 .bashrc文件添加环境变量:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.1/lib64
export PATH=$PATH:/usr/local/cuda-11.1/bin
export CUDA_HOME=/usr/local/cuda-11.1
执行source命令,让环境变量生效
source /root/.bashrc
3)安装cudnn
下载完成后安装
sudo dpkg -i libcudnn8*.deb
4)检验是否安装成功
查询cudnn安装文件地址
sudo updatedb
locate cudnn
将测试文件复制到home目录下
cp -r /usr/src/cudnn_samples_v8/ $HOME/cudnn_samples_v8/
cd ~/cudnn_samples_v8/mnistCUDNN/
make clean && make
./mnistCUDNN
如出现 test.c:1:23: fatal error: FreeImage.h: 没有那个文件或目录 的错误提示:
请参考此文解决:
测试结果,出现Test passed! 说明配置成功。