环境
Server: Ubuntu 22.04.2 LTS (GNU/Linux 5.15.0-76-generic x86_64)
GPU: nvidia 4090
解决思路
明确问题,排查原因
观察法
-
nvidia-smi -l
记录保存到文件,回溯问题原因,温度尚可,功率也正常。排除可能的散热问题。 -
s-tui
可以追踪功率变化,帮助排查电源问题(可能性通常较小,不建议优先考虑)。
实验法(可能的解决方案)
以上方法均无法解决该问题,但过程中有发现:按照标准流程安装驱动后,运行nvidia-smi
依然会出现问题:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
但是通过命令ll /usr/src/
能找到已安装的驱动文件,也可通过dpkg -l | grep nvidia
确认已安装相应版本驱动。
因此在驱动安装成功的基础上,排除内核不匹配的可能原因之后,很可能是通信本身的问题(尤其是nvcc
也可正常搜到,万事俱备只欠东风),通过继续检索,一篇文章的评论里提醒到我:关闭 secure boot
!
尝试进入bios
后disable secure boot
(一般在settings 的security里面)之后,在没有重装驱动的情况下,nvidia-smi
可以正常运行,故此推测是这个设定影响了主板和显卡的通信(仅瞎猜,欢迎将可靠的解释分享在评论区)。