当使用GPU的时候,某次突然出现 “Failed to initialize NVML: Driver/library version mismatch”错误的解决方法,据说重启也能解决,由于不方便重启,这里采用以下方式解决。
导致原因可能是系统自动更新驱动。
解决方法:
退出当前内核使用的显卡模块
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载
使用以上命令可能会出现以下错误
$ sudo rmmod nvidia
rmmod: ERROR: Module nvidia is in use by: nvidia_modeset
需要手动关闭nvidia_modeset,查看所有的nvidia相关的进程
sudo lsof -n -w /dev/nvidia*
使用sudo kill -9 PID终止掉后在关闭
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
再执行
sudo nvidia-smi
问题解决。nvidia-smi发现没有kernel mod的时候,会自动装载。