1 问题描述
服务器重启后,输入nvidia-smi查看显卡占用情况,发现报如下错误:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
这是因为电脑重启自动更新,linux内核升级,之前的nvidia驱动无法正确匹配连接。
2 解决方案:安装运行DKMS
DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
在使用dkms之前首先需要确保系统中已经安装了 DKMS。
sudo apt-get install dkms
2. 查看本机连接不上的驱动版本:
ls -l /usr/src/
可以看到一个nvidia的文件,如下:
drwxr-xr-x 7 root root 4096 Aug 5 2022 nvidia-450.80.02
3. 使用dkms重新安装适合内核的驱动:
sudo dkms install -m nvidia -v 450.80.02
注意将450.80.02换成自己的版本。
4. 输入nvidia-smi检查可以显示显卡信息