删除驱动
查看安装的nvidia模块命令 rpm -qa|grep -i nvid|sort
删除找到的模块 yum remove kmod-nvidia-*
一、查看支持CUDA的GPU列表 :lspci | grep -I nvidia
1. 没有lspci这个命令,需要安装 sudo yum install pciutils (注意要拥有root权限才可以安装)
2. 验证系统是否是受支持的Linux版本:uname -m && cat /etc/redhat-release
验证链接
二、验证系统gcc编译环境 gcc -v
1. 没有gcc环境,安装 yum group install "Development Tools"
2. 安装gcc, g++, make yum install man-pages
三、验证系统是否安装了正确的内核头文件和开发包(*** 很关键 ***)
安装驱动的过程中会自动地尝试安装development packages和kernel headers,
如果没有事先安装好的话会导致直接安装最新的development packages和kernel headers,
很可能导致和系统的内核版本不匹配,这可能会导致之后 nvidia-smi 时候出现"NVIDIA-SMI has failed
because it couldn’t communicate with the NVIDIA driver. Make sure that
the latest NVIDIA driver is installed and running.”
还有一点是如果更新了系统内核导致了显卡驱动出现问题的,也需要更改development packages和kernel headers。
-
查看当前系统内核
uname -r
-
查看所有的kernel相关的组件
rpm -qa | grep kernel
-
yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
关键点:
发现上述命令执行的时候出错,说找不到对应的kernel-devel 和 kernel-headers那么可以考虑直接升级内核,两种方式升级内核:小版本升级和大版本升级:安装驱动一般做个小驱动升级就可以了,就可以解决找不到devel和headers的问题了,接着再按照好devel和headers,反正这里一定要保证内核的版本和devel和headers的版本是一致的, 大版本升级失败(导致系统重新做了) -
首先查看内核
yum list kernel
-
然后更新内核
yum update kernel -y
-
重启(必须重启)
reboot
-
查看内核
uname -r
-
重复执行
yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
-
不放心再次出错,可以重启。我重启了(失败次数太多了,均是是由内核版本不匹配导致)
三、安装驱动
1. 驱动下载rpm 包安装:下载链接
2. 按照官网操作指南进行安装:
使用rpm命令:
rpm -i nvidia-driver-local-repo-rhel7-440.118.02-1.0-1.x86_64.rpm
使用yum命令清除缓存:yum clean all
使用yum命令安装驱动:yum install cuda-drivers
(下载依赖太慢了,很耗时)
重启机器reboot
四、运行nvidia-smi
能输出正确信息代表驱动安装成功
五、安装CUDA 和CUDNN 参考Centos7 安装GPU驱动CUDA,CUDNN
备注:
ubuntu 安装 GPU 驱动 请参考:https://blog.csdn.net/llm765800916/article/details/109185785
centos7 run文件安装驱动 请参考:https://blog.csdn.net/llm765800916/article/details/105991345