华为云GPU服务器,带有一张Tesla T4,安装最新驱动后, nvidia-smi 报错提示:
No devices were found
参考华为云上的这篇知识库文章:Why Is the T4 GPU Display Abnormal?
在服务器上执行如下命令:
rmmod nvidia_drm
rmmod nvidia_modeset
rmmod nvidia
modprobe nvidia NVreg_EnableGpuFirmware=0
modprobe nvidia_drm
modprobe nvidia_modeset
执行上面的命令后,T4能正常使用新版驱动。
之后,需要将上述内核模块设置固定下来:
将以下内容加入 /etc/modprobe.d/nvidia.conf
中
options nvidia NVreg_EnableGpuFirmware=0
重启后生效。