由于断电,服务器重启了,当我再次跑实验时,发现cuda不可用,于是输入“nvidia-smi”才发现了一个错误,如下:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver
这是由于重启服务器,linux内核升级导致的,由于linux内核升级,之前的Nvidia驱动就不匹配连接了,但是此时Nvidia驱动还在,可以通过命令 nvcc -V 找到答案。
解决方法:
第一步,安装dkms:
sudo apt-get install dkms
第二步,查看本机连接不上的驱动版本:
ls -l /usr/src/
可以看到有一个nvidia的文件,我这里是 nvidia-470.103.01
如果没有 nvidia-470.103.01 这类文件,那么请作者打开 unbuntn 的软件与升级,如下:
打开以后发现有一项 additional drivers ,根据自己的需求安装一个就好了,我这里安装的470,如下:
安装完成后在 /usr/src/ 目录下就会有 nvidia-470.103.01 文件啦!
第三步,使用dkms重新安装适合驱动:
sudo dkms install -m nvidia -v 470.103.01
这条命令 -v 后面需要填写本机的nvidia驱动版本,根据第二步得到!
到了这里,如果你安装成功,那么恭喜你,此时输入nvidia-smi就会成功连接了!