安装步骤主要参考官网步骤,这里给出官网链接: NVIDIA CUDA Installation Guide for Linux
安装步骤
- Verify the system has a CUDA-capable GPU
- Verify the system is running a supported version of Linux
- Verify the system has gcc installed
- Verify the system has the correct kernel headers and development packages installed
- Download the NVIDIA CUDA Toolkit
- Handle conflicting installation methods
1. 确认系统是否有支持CUDA的GPU
lspci | grep -i nvidia
出现来自NVIDA的相关设备信息,就是有支持CUDA的GPU。如果没有出现任何信息,参考这条意见:
update the PCI hardware database that Linux maintains by entering update-pciids (generally found in /sbin) at the command line and rerun the previous lspci command.
2.确认Linux支持的配置
uname -m && cat /etc/*release
一般情况下都是64位。
3. 确认gcc安装
CUDA Toolkit需要使用到gcc,gcc一般会随Linux的安装被自动安装,如果没有查询到gcc版本,自行安装适配系统的gcc即可。
gcc --version
4. 确认Linux的Kernel的版本
为了后续保证后续安装的CUDA版本是你的Linux所支持的,这里可以简单记录一下,方便后续挑选CUDA的版本。
uname -r
如果没有安装,ubuntu使用以下代码安装:
sudo apt-get install linux-headers-$(uname -r)
5. 选择一种安装方式
我选择runfile(local),这一步不需要操作,下一步会使用。
6. 下载NVIDIA CUDA Toolkit
进入 CUDA Toolkit,如下图:
之后就安装给出的命令依次安装即可。
- 报错信息解决
尝试解决方案:
参考博文: Ubuntu下cuda安装出现段错误以及nvcc无法找到最新安装的cuda解决方法
在更改栈的size后还是继续中断报错,又使用-c命令继续安装,应该是网络问题
// 使用下列命令,持续安装,最后就安好了
wget -c https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run
- 环境配置
// 配置路径
export PATH=$PATH:/usr/local/cuda-11.0/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.0/lib64
export LIBRARY_PATH=$LIBRARY_PATH:/usr/local/cuda-11.0/lib64
// 环境起效
source ~/.bashrc
// 查看版本号,没有安装nvcc相关工具,根据提示安装后再查询即可
nvcc -V
7. 安装cuDNN
参考如下博文完成安装:
(1) Ubuntu16.04下安装cuda和cudnn的三种方法(亲测全部有效)
(2) Ubuntu22.04安装CUDA和cuDNN详细过程记录
先尝试使用tar安装:
$ tar -xvf cudnn-linux-$arch-8.x.x.x_cudaX.Y-archive.tar.xz
$ sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
$ sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
安装完成,验证:
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
验证成功: