注意: 千万不要在虚拟机机中操作,不会成功的。因为目前不支持。
要想成功,需要在实体机中操作。
准备
确认版本
主要确认CUDA toolkit和nvidia的驱动版本。
经过实践之后,发现最靠谱的确定思路是:
首先根据本机的显卡版本,确定nvidia显卡的驱动版本,然后根据驱动版本确定CUDA toolkit的版本。
查看显卡的类型
可以看到显卡的类型为GeForce GTX 1060 3G
CUDA的core个数为: 1152个
确定显卡的驱动版本
https://www.geforce.com/drivers
然后可以查询到所有支持该显卡的驱动版本,最上边的为最新版本(除了beta版本)。
可看到当前nvidia显卡最新的驱动版本为: 390.87
确定CUDA toolkit的版本
CUDA toolkit对nvidia的版本有要求, 可参见https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html中的CUDA Driver部分的说明:
image.png
linux平台下,由于nvidia driver的最新版本为390.87,所以无法选择CUDA 9.2, 因为它对driver的要求是>=396.26, 所以选择CUDA 9.1,它的要求是>=390.46, 满足要求。
查看系统和内核的要求
参见https://docs.nvidia.com/cuda/archive/9.1/cuda-installation-guide-linux/index.html中System Requirements部分的说明:
可见CUDA 9.1对各系统的要求。
比如CentOS 7.x,要求内核3.10, gcc版本4.8.5, GLIBC版本2.17等。
必要的查询
可参考https://docs.nvidia.com/cuda/archive/9.1/cuda-installation-guide-linux/index.html中的第2章。
(1) 查看是否存在支持CUDA的GPU
lspci | grep -i nvidia
可以在https://developer.nvidia.com/cuda-gpus查询本机的显卡是否支持CUDA。
(2) 查看当前linux版本是否支持
The CUDA Development Tools are only supported on some specific distributions of Linux.
$ uname -m && cat /etc/*release
You should see output similar to the following, modified for your particular system:
x86_64
Red Hat Enterprise Linux Workstation release 6.0 (Santiago)
The x86_64 line indicates you are running on a 64-bit system.
The remainder gives information about your distribution.
(3) 查看gcc的版本:
$ gcc --version
(4) 查看glibc版本
ll /lib64/libc.so.*
(5) 安装当前内核需要的kernel headers
这个步骤很重要。
sudo yum install "kernel-devel-uname-r == $(uname -r)"
安装显卡驱动和CUDA toolkit
Handle Conflicting Installation Methods中提到:
可见,同版本的显卡驱动和CUDA toolkit,如果再次安装时,需要卸载旧的版本。
如果CUDA toolkit已安装,可用如下途径卸载:
To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-9.1/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall
安装显卡driver
yum安装
大部分 Linux 发行版都使用开