一、GPU硬件安装
PCI接口插上就行,如果操作系统内能够检测到硬件,说明已经成功了。
以下摘自官方文档
lspci | grep -i vga
查看显卡信息【若出现NVIDIA的信息就对了】
这里要注意一点,GPU是需要电源供电的,如果服务器上有供电插口的话可以直接插上;如果服务器上没有或者使用的是台式机,需要外加电源,额定功率在600W或600W以上的电源,8+6PIN的插口。
二、驱动安装
因为我本来就是在root权限下执行的,所以命令都没有加sudo,如果在其他用户下执行需要加sudo来获取更高权限。
我安装的GPU是技嘉 TITAN X,技嘉官网只有Windows下的驱动,而我们的程序要在Linux下执行,所以到NVIDIA官网下载的驱动。
NVIDIA的Linux官方驱动是NVIDIA-Linux-x86_64-367.35.run
链接http://www.nvidia.com/download/driverResults.aspx/105343/en-us
下载页面会给出该驱动可支持的设备型号,先确认是否支持再下载。
安装(./ NVIDIA-Linux-x86_64-367.35.run)的时候如果提示找不到driver说明硬件没插好,如果提示需要关闭X server,
xkill -all
如果还是提示X正在运行,我的方法是删掉锁定的文件
rm /tmp/.X*-lock
./NVIDIA-Linux-x86_64-367.35.run
nvidia-xconfig #把新的NVIDIA配置写入/etc/X11/xorg.conf
参考: https://linuxconfig.org/nvidia-geforce-driver-installation-on-centos-7-linux-64-bit
安装cuda的时候也是带了NVIDIA显卡驱动的,但是要看好版本是否支持你的设备。如果在安装cuda之前安装过NVIDIA driver并且不想被覆盖,则安装cuda时问是否需要安装设备驱动的时候选择否。如果担心被覆盖的话,可以在装完cuda以后用上面的方式再重新安装一遍设备驱动。(cuda怎么安装有很多讲究,下篇再讲)
我之前一直以为我先装一个非cuda自带的nvidia-driver(自带352.39,先装了367.32),在装cuda的时候不选驱动那项就可以。然而,我发现最后装完还是352.39。网上查到,如果之前装过cuda自带的版本的驱动,并且没有卸载干净,那么下次安装cuda的时候即使没有选择装驱动它也会装上的。
于是接下来做的事情便是清理干净机器上的nvidia-driver,使用rpm –qa | grep nvidia
和rpm –qa | grep cuda
查看机器上的nvidia和cuda的版本,然后一一卸载。
我在卸载的时候老是出现错误依赖。后来为了清理,忽略依赖,即rpm –e <software name> --nodeps