深度学习工作站由于显卡驱动问题导致不能使用GPU

最新推荐文章于 2024-06-14 14:28:21 发布

JiaShengLiu111

最新推荐文章于 2024-06-14 14:28:21 发布

阅读量4.6k

点赞数

文章标签： tensorflw tesla 深度学习 gpu

本文链接：https://blog.csdn.net/liu111111113/article/details/82859439

版权

问题：实验室深度学习tesla k40c工作站GPU突然不能使用

表现：跑神经网络模型特别慢，内存爆满，但是显存却空着

原因：显卡驱动程序不兼容，导致显卡GPU不可用。

备注：

实验室显卡驱动型号：NVIDIA-Linux-x86_64-384.111.run

下载地址：https://www.nvidia.cn/Download/driverResults.aspx/128768/cn

还可以在nvidia官网上下载相应型号的显卡驱动，官网地址为：https://www.nvidia.cn/Download/index.aspx

解决方案：重装Linux显卡驱动，具体步骤如下所示：

（1），准备驱动程序（通常是.run文件或者是.deb文件，本次实验中采用的是.run文件）。

（2），屏蔽nouveau驱动。Ubuntu系统集成的显卡驱动程序是nouveau，它是第三方为NVIDIA开发的开源驱动，我们需要先将其屏蔽才能安装NVIDIA官方驱动。所以我们要先把驱动加到黑名单blacklist.conf里。我们要先修改该文件的属性才能编辑，

修改属性：

$sudo chmod 666 /etc/modprobe.d/blacklist.conf

修改文件：

$sudo vi /etc/modprobe.d/blacklist.conf

在文件的最后几行插入如下代码块：

blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb

更新文件：

sudo update-initramfs -u

（3），安装驱动

$sudo service lightdm stop  # 关闭图形界面
$cd /home/xxx/Nvidia                    # 进入下载的.run文件目录中
$sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run　　　　　　　　# 修改权限
$sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files 
# 安装驱动

驱动程序安装过程中会有一些选项，可以参考：https://blog.csdn.net/wangsidadehao/article/details/70255754

比如：是否同意使用DKMS自动的build一个新模块，选择否。以及是否加入nvidia 32位编译库，也选择否。

（4），测试是否安装成功

sudo service lightdm start    //启动图形界面

使用nvidia-smi命令查看显卡型号，并查看显存具体使用情况：
在这里插入图片描述

过程所学：

输出显卡具体型号：cat /proc/driver/nvidia/version。（如上，nvidia-smi同样可以查看显卡型号）
在这里插入图片描述

查看显卡是否安装好：lshw -c video看configurure字段有没有driver字样，若有内容，则显卡驱动装好了。
在这里插入图片描述

查看cuda版本：cat /usr/local/cuda/version.txt

查看cudnn版本：cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

可能需要的教程：

NVIDIA-Docker安装：https://blog.csdn.net/sinat_26917383/article/details/78728215

#Install nvidia-docker and nvidia-docker-plugin
$ wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
$ sudo dpkg -i /tmp/nvidia-docker*.deb
$ sudo nvidia-docker run –rm nvidia/cuda nvidia-smi  #Test nvidia-smi

linux安装cuda和cudnn：https://blog.csdn.net/cs24k1993/article/details/78936856

JiaShengLiu111

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
深度学习工作站由于显卡驱动问题导致不能使用GPU

问题：实验室深度学习tesla k40c工作站GPU突然不能使用表现：跑神经网络模型特别慢，内存爆满，但是显存却空着原因：显卡驱动程序不兼容，导致显卡GPU不可用。备注：实验室显卡驱动型号：NVIDIA-Linux-x86_64-384.111.run下载地址：https://www.nvidia.cn/Download/driverResults.aspx/128768/cn还可...
复制链接

扫一扫