Ubuntu 20.04 RTX 4090显卡 深度学习环境配置(Nvidia显卡驱动、CUDA11.6.0、cuDNN8.5)
一、安装Nvidia显卡
参考文献:从零到一保姆级Ubuntu深度学习服务器环境配置教程
看文献中“三、 NVIDIA驱动安装”
安装NVIDIA驱动,这也是安装CUDA10.0及其对应版本的CuDNN和tensorflow的重要步骤。
1.1 输入显卡型号查看支持显卡驱动的版本
1.1.1 英伟达中国驱动官网
1.1.2 输入显卡型号查询
1.1.3 查看搜索结果
1.2 下载安装Nvidia
1.2.1 方法一
直接在Ubuntu系统中的soft updates中安装525-server(专有)版本
注意:
1.2.1 方法二
自己试一下,我没用下面的方法。
参考文献:在ubuntu安装nvidia驱动 (亲测有效,这是方法二)
参考文献:在ubuntu安装nvidia驱动(亲测有效,这是方法一))
二、安装CUDA11.6.0
参考文献:ubuntu18.04安装nvidia_driver_510+cuda_11.6+cudnn_11.x
参考文献:从零到一保姆级Ubuntu深度学习服务器环境配置教程
2.1 检测自己电脑GPU是否兼容CUDA(N卡支持)
lspci | grep -i nvidia
显示compatible兼容
2.2 进入CUDA官网
CUDA官网:https://developer.nvidia.com/cuda-toolkit-archive
2.3 下载安装CUDA11.6.0
我比较习惯把一些下载安装同一个文件夹“software”
第一步:home 下新建文件
cd # 返回home目录
mkdir software # 新建 software文件夹
第二步:后续在software文件夹下载的CUDA11.6.0安装包
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
第三步(可省略):给run文件权限
sudo chmod 777 cuda_11.6.0_510.39.01_linux.run
第四步:运行run文件(–override:表示覆盖替换文件意思)
sudo sh cuda_11.6.0_510.39.01_linux.run --override
等待后续:
(1)选择continue
(2)输入:accept
(3)选项条款选择
“Enter”按键选中或者取消
前面已经安装过Nvidia显卡525,此处不需要Driver(前两个都取消)(X代表选中)
最后,Install,等待完成
2.4 安装CUDA11.6.0后的配置
第一步:配置相关环境变量。
(1)打开~/.bashrc文件,代码如下:
sudo vim ~/.bashrc
(2)将以下内容写入到~/.bashrc尾部,并保存成功。
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
(3)保存,退出。终端执行
source ~/.bashrc
后续可根据意愿进行,我也不确定。
参考文献:ubuntu18.04安装nvidia_driver_510+cuda_11.6+cudnn_11.x
第二步:利用vim命令打开在/etc/profile文件中,添加CUDA环境变量,代码如下:
(1)
sudo vim /etc/profile
(2)打开文档都在文档结尾加上下面两句:
PATH=/usr/local/cuda/bin:$PATH
export PATH
(3)保存后, 执行下列命令, 使环境变量立即生效,代码如下:
source /etc/profile
第三步:同时添加lib库路径,在 /etc/ld.so.conf.d/新建文件 cuda.conf,命令如下:
(1)
sudo vim /etc/ld.so.conf.d/cuda.conf
(2)在文中加入下面内容:
/usr/local/cuda/lib64
(3)执行下列命令使之立刻生效,代码如下:
sudo ldconfig
2.5 利用测试CUDA的samples来测试cuda安装是否成功
cd /usr/local/cuda-11.6/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
一般都会面临如下问题:
11.6版本cuda的安装目录/usr/local/cuda-11.6/samples里只有一个txt文件,大致意思是告诉你新版本的cuda,samples中内容需要自己在github下载。
解决方法:
第一步:下载测试示例
(1)切换到/usr/local/cuda-11.6/samples目录下
cd /usr/local/cuda-11.6/samples/
(2)github下载
git clone https://gitee.com/liwuhaoooo/cuda-samples.git
大概率无权访问,此时在cuda-11.6文件夹下打开终端
su
输入密码切换超级用户
chmod 777 samples
再次执行git clone 就可以了。
第二步:找到1_Utilities/deviceQuery文件夹
(1)切换到deviceQuery文件夹下
(2)运行
sudo make
./deviceQuery
(3)显示pass
注意:
三、安装cuDNN v8.5.0 (August 8th, 2022), for CUDA 11.x
参考文献:从零到一保姆级Ubuntu深度学习服务器环境配置教程
3.1 打开官网使用邮箱注册(我用的qq邮箱)
看参考文献(cuDNN部分):从零到一保姆级Ubuntu深度学习服务器环境配置教程
3.2 下载 cuDNN v8.5.0 (August 8th, 2022), for CUDA 11.x
同样,下载之后放在software文件夹中。
3.3 安装 cuDNN v8.5.0 (August 8th, 2022), for CUDA 11.x
参考文献:Ubuntu20.04安装Nvidia显卡驱动、CUDA11.5、cuDNN8.3、Anaconda及Tensorflow-GPU版本详细图文操作教程
第一步:查看官方安装方法
Nvidia官方安装教程:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
完全按照官方操作即可,大概意思是将文档中的X.Y修改成CUDA版本号、v8.x.x.x修改成cuDNN版本号,这里我们将X.Y改为11.5、v8.x.x.x修改为8.3.2.44,同学们参照修改就可以了。
第二步:安装
(1)切换到下载路径
cd ~/software
(2)解压
tar -xvf cudnn-linux-x86_64-8.5.0.96_cuda11-archive.tar.xz
(3)成功提取文件后不用管它,直接执行下面命令(不用修改,没有版本号之类)
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
3.4 验证安装
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2