问题描述:
服务器突然断连,重启后连接执行nvidia-smi命令显示报错“NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.”
原因:
Ubuntu内核自动更新,导致内核与NVIDIA驱动版本不匹配。
解决方法:
1.降低内核版本,据说在开机界面选择高级配置,可以退回之前内核版本。(本人测试时无法连接服务器与显示屏,方法测试失败)
2.更新驱动
①卸载旧驱动
sudo apt-get remove --purge '^nvidia-.*'
sudo apt-get remove --purge '^libnvidia-.*'
sudo apt-get remove --purge '^cuda-.*'
②安装sudo apt-get install linux-headers-$(uname -r)
③根据自己的版本下载新驱动。CUDA Toolkit 12.2 Update 2 Downloads | NVIDIA Developer
防止再次发生:
关闭自动更新
vi /etc/apt/apt.conf.d/10periodic
vi /etc/apt/apt.conf.d/20auto-apgrades
里面的参数值都改成0。
参考