安装多版本Cuda和Cudnn
安装管理多版本Cuda和Cudnn
一般来说,通过conda管理不同环境就够了,但是运行某些之前的代码时,会发现,即使该conda环境里装有指定cuda版本,但是还是会出现cuda版本错误。经过简单查证发现,有些代码不仅仅需要conda环境中具有对应cuda版本,还要求系统本身也具有对应cuda版本。本文将分为4个章节,gcc版本管理、cuda版本管理、cudnn安装、pytorch安装,详细说明所有流程!
安装管理多版本gcc
参考:Ubuntu20.04终端安装、切换低版本gcc/g++
不同版本的Ubuntu系统默认带有的gcc版本是不同的,Ubuntu20.04默认带有gcc9,而许多需要C语言编译的程序是由低版本gcc编译的,如一些早期版本的cuda。所以我们需要安装低版本gcc,比如gcc5。
一个更好地解决方法是,安装多个版本的gcc,根据需要随时切换版本。
这里我们准备安装gcc5 与gcc9 共存。
查看当前gcc版本
gcc -v
g++ -v
增加软件源
现在低版本的gcc已经不在ubuntu的官方源里,因此需要手动添加软件源
打开sources.list
sudo gedit /etc/apt/sources.list
增加
deb http://dk.archive.ubuntu.com/ubuntu/ xenial main
deb http://dk.archive.ubuntu.com/ubuntu/ xenial universe
更新
sudo apt-get update
安装gcc5
sudo apt-get install g++-5 gcc-5
查看安装的所有gcc版本
ls /usr/bin/gcc*
ls /usr/bin/g++*
给不同版本gcc设置不同优先级
这里全设置的是100,也可以设置50,优先级不同可以自动切换,但是由于我们是手动切换,所以设置相同优先级即可
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 100
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 100
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 100
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-9 100
如果日后想要删除某个版本的优先级,可以用下面模式的代码
sudo update-alternatives --remove /usr/bin/g++-5
输入编号切换gcc版本
sudo update-alternatives --config gcc
sudo update-alternatives --config g++
输入上述指令后,会提示输入编号来切换gcc版本,注意gcc版本应该与g++版本保持一致
至此,该电脑上装有了多个版本的gcc,我们将gcc版本切换为gcc5
安装管理多版本cuda
参考:
在Ubuntu 18.04中配置GPU环境:安装CUDA 9.0等
安装多版本 cuda ,多版本之间切换
不同的显卡只支持一定版本的cuda,除此之外,有些程序也只能用指定版本的cuda运行。
为了运行多种程序,我要安装多个版本的cuda共存,同时根据需要便捷切换cuda版本。
注意这里描述的cuda版本与下面的cudnn版本都是指安装在系统级别的,而不是指安装在conda环境中。一般来说,conda环境里还需要再安装一遍对应版本的cuda和cudnn。
安装cuda
nvidia cuda下载地址,下载所需的cuda版本,建议下载runfile
格式,避免替换掉原来的驱动。
sudo chmod +x cuda_9.0.176_384.81_linux.run # 为 cuda_9.0.176_384.81_linux.run 添加可执行权限
./cuda_9.0.176_384.81_linux.run # 安装 cuda_9.0.176_384.81_linux.run
在安装过程中截取其中比较重要的几个选择:
Do you accept the previously read EULA?
accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 384.81?
(y)es/(n)o/(q)uit: n # 如果在这之前已经安装好更高版本的显卡驱动就不需要再重复安装,如果需要重复安装就选择 yes,此外还需要关闭图形界面。
Install the CUDA 9.0 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-9.0 ]: # 一般选择默认即可,也可以选择安装在其他目录,在需要用的时候指向该目录或者使用软连接 link 到 /usr/local/cuda。
/usr/local/cuda-9.0 is not writable.
Do you wish to run the installation with 'sudo'?
(y)es/(n)o: y
Please enter your password:
Do you want to install a symbolic link at /usr/local/cuda? # 是否将安装目录通过软连接的方式 link 到 /usr/local/cuda,yes or no 都可以,取决于你是否使用 /usr/local/cuda 为默认的 cuda 目录。
(y)es/(n)o/(q)uit: n
Install the CUDA 9.0 Samples?
(y)es/(n)o/(q)uit: n
安装完成后可以在 /usr/local
目录下看到:
cuda-11.0 # 笔者之前安装的cuda-11.0
cuda-9.0 # 刚刚安装的cuda-9.0
cuda # cuda-11.0 的软连接
有些cuda版本可能具有多个升级包,也是如上赋执行权限,然后安装即可
增加环境变量
sudo gedit ~/.bashrc
在bashrc中将cuda的环境变量地址设置为cuda软连接的地址/usr/local/cuda
,而不是特定cuda版本的文件夹如/usr/local/cuda-11.0
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
替换软连接以替换cuda版本
#在切换cuda版本时
rm -rf /usr/local/cuda #删除之前创建的软链接
sudo ln -s /usr/local/cuda-9.0/ /usr/local/cuda/ #创建同名软连接到cuda-9.0版本的文件夹
nvcc -V #查看当前 cuda 版本,显示的是cuda-9.0
安装cudnn
参考:
cuDNN的安装(版本选择, Runtime 还是 Developer)
下载cudnn
nvidia cudnn下载地址,下载所需的cudnn版本,这里下载的是对应cuda9.0的cudnn版本。建议下载tgz
格式,一个压缩包,包含了runtime library、developer library、code samples
复制文件,赋权限
解压缩,然后将对应的内容复制进对应版本cuda的include
文件夹和lib64
文件夹,然后给刚复制完的文件赋权限
sudo cp cuda/include/cudnn* /usr/local/cuda-9.0/include/
sudo chmod a+r /usr/local/cuda-9.0/include/cudnn*
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64/
sudo chmod a+r /usr/local/cuda-9.0/lib64/libcudnn*
有些版本的cudnn,解压缩后的路径构成不是cuda/include
和cuda/lib64
,只要找到这两个文件夹,稍加修改路径即可
检查cudnn版本
cat /usr/local/cuda-9.0/include/cudnn.h | grep CUDNN_MAJOR -A 2
安装pytorch
pytorch下载地址
在conda中安装对应cuda版本pytorch版本即可