问题:实验室深度学习tesla k40c工作站GPU突然不能使用
表现:跑神经网络模型特别慢,内存爆满,但是显存却空着
原因:显卡驱动程序不兼容,导致显卡
GPU不可用。
备注:
实验室显卡驱动型号:NVIDIA-Linux-x86_64-384.111.run
下载地址:https://www.nvidia.cn/Download/driverResults.aspx/128768/cn
还可以在nvidia官网上下载相应型号的显卡驱动,官网地址为:https://www.nvidia.cn/Download/index.aspx
解决方案:重装Linux显卡驱动,具体步骤如下所示:
(1),准备驱动程序(通常是.run文件或者是.deb文件,本次实验中采用的是.run文件)。
(2),屏蔽nouveau驱动。Ubuntu系统集成的显卡驱动程序是nouveau,它是第三方为NVIDIA开发的开源驱 动,我们需要先将其屏蔽才能安装NVIDIA官方驱动。 所以我们要先把驱动加到黑名单blacklist.conf里。我们要先修改该文件的属性才能编辑,
修改属性:
$sudo chmod 666 /etc/modprobe.d/blacklist.conf
修改文件:
$sudo vi /etc/modprobe.d/blacklist.conf
在文件的最后几行插入如下代码块:
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb
更新文件:
sudo update-initramfs -u
(3),安装驱动
$sudo service lightdm stop # 关闭图形界面
$cd /home/xxx/Nvidia # 进入下载的.run文件目录中
$sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run # 修改权限
$sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files
# 安装驱动
驱动程序安装过程中会有一些选项,可以参考:https://blog.csdn.net/wangsidadehao/article/details/70255754
比如:是否同意使用DKMS自动的build一个新模块,选择否。以及是否加入nvidia 32位编译库,也选择否。
(4),测试是否安装成功
sudo service lightdm start //启动图形界面
使用nvidia-smi命令查看显卡型号,并查看显存具体使用情况:
过程所学:
输出显卡具体型号:cat /proc/driver/nvidia/version。(如上,nvidia-smi同样可以查看显卡型号)
查看显卡是否安装好:lshw -c video看configurure字段有没有driver字样,若有内容,则显卡驱动装好了。
查看cuda版本:cat /usr/local/cuda/version.txt
查看cudnn版本:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
可能需要的教程:
NVIDIA-Docker安装:https://blog.csdn.net/sinat_26917383/article/details/78728215
#Install nvidia-docker and nvidia-docker-plugin
$ wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
$ sudo dpkg -i /tmp/nvidia-docker*.deb
$ sudo nvidia-docker run –rm nvidia/cuda nvidia-smi #Test nvidia-smi
linux安装cuda和cudnn:https://blog.csdn.net/cs24k1993/article/details/78936856