服务器GPU使用率持续100%且功耗异常高,断电重启后仍未恢复,可能涉及以下几方面的故障或异常原因:
1. 挖矿或其他高负载程序占用
- 原因:服务器可能被入侵,运行了加密货币挖矿程序(如图所示使用了 T-Rex 挖矿软件)。
- 排查方法:
- 检查正在运行的进程:
ps aux | grep t-rex
- 查看GPU使用情况:
nvidia-smi -l 1
- 终止异常进程:
kill -9 <PID>
- 如果是非法程序,需检查服务器日志:
journalctl -xe
- 如果确认被入侵,需立即断网,排查漏洞并重装系统。
- 检查正在运行的进程:
2. 系统和驱动异常
- 原因:NVIDIA驱动或CUDA环境故障,导致GPU资源无法正确释放。
- 排查方法:
- 查看驱动状态:
nvidia-smi
- 检查是否有异常错误:
dmesg | grep NVRM
- 重新加载驱动:
sudo systemctl restart nvidia-persistenced
- 如果问题持续,可尝试重新安装或更新NVIDIA驱动。
- 查看驱动状态:
3. 系统配置或BIOS异常
- 原因:某些BIOS设置(如PCIe配置、电源管理)或系统参数异常。
- 排查方法:
- 进入BIOS,检查PCIe配置是否为GEN3/GEN4模式。
- 确保电源管理设置为Performance而非节能模式。
- 关闭Resizable BAR(如有)。
4. 硬件故障
- 原因:GPU、电源或主板供电模块故障,导致功耗异常。
- 排查方法:
- 监控功耗和温度是否稳定:
watch -n 1 nvidia-smi
- 尝试拔插GPU、更换供电接口,确保每个GPU独立供电。
- 如果可能,逐个拆除GPU排查是否为单卡故障。
- 监控功耗和温度是否稳定:
✅ 建议优先检查
- 确认是否存在非法挖矿进程,必要时清除并加强安全策略。
- 确保NVIDIA驱动和系统环境无误。
- 监控硬件健康状况,避免长时间高负载损坏设备。