现象
内核升级后,nvidia-smi无法启动:
从报错看,应该是NVIDIA driver出错。
重新安装
参考uninstall a Driver runfile installation,先卸载之:
sudo /usr/bin/nvidia-uninstall
开始卸载,选择No:
卸载完成:
安装,注意只勾选driver:
sudo sh cuda_11.7.1_515.65.01_linux.run
解决安装出错
安装kernel-devel
由于未安装与kernel相同版本的kernel-devel,导致安装出错 /var/log/nvidia-installer.log:
查看已安装的kernel-devel:
查看本机的kernel-devel,若未安装,应为空目录:
ls /lib/modules/$(uname -r)/build
安装之:
sudo yum --enablerepo=elrepo-kernel install kernel-lt-devel
此时再查看,已安装:
解决gcc版本不匹配
再次安装时,出现了gcc版本不匹配的问题。编译内核的gcc版本与host的gcc版本不匹配:
启用gcc9:
source /opt/rh/devtoolset-9/enable
此时再次安装,成功。
重启系统后,找不到驱动
重装驱动,只勾选driver:
sh cuda_11.7.1_515.65.01_linux.run