GPU常见故障及排查方法
1. GPU日志收集
安装GPU驱动的系统下,root用户任意目录下执行命令:nvidia-bug-report.sh
执行命令后,当前目录下会生成日志压缩包:nvidia-bug-report.log.gz
2. 系统状态检测
对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。
对于GPU服务器,建议进行以下配置:
维持较新的、正确的GPU驱动版本
禁用nouveau模块
打开GPU驱动内存常驻模式并配置开机自启动
GPU故障后,建议使用ipmitool power reset命令对服务器进行冷重启后观察故障是否消失或重现
2.1 检查GPU驱动
GPU驱动下载注意事项:
从NVIDIA官网进行GPU驱动下载
选择正确的GPU型号
对于64位linux建议直接选择linux 64-bit
选择NVIDIA“推荐/认证”的驱动
2.2 禁用nouveau 模块
nouveau是NVIDIA显卡的开源驱动程序,会与NVIDIA官方GPU驱动发生冲突,需要在系统下禁用nouveau模块。
# 以下命令没有任何输出表示nouveau模块已经禁用
[root@zj ~]# lsmod | grep -i nouveau
# 以下输出表示nouveau模块没有禁用
[root@zj ~]# lsmod | grep -i nouveau
nouveau 1662531 0
mxm_wmi 13021 1 nouveau
wmi 19086 2 mxm_wmi,nouveau
i2c_algo_bit 13413 1 nouveau
video 24538 1 nouveau
drm_kms_helper 176920 2 nouveau,vmwgfx
ttm 99555 2 nouveau,vmwgfx
drm 397988 6 ttm,drm_kms_helper,nouveau,vmwgfx
i2c_core 63151 5 drm,i2c_piix4,drm_kms_helper,i2c_algo_bit,nouveau
禁用nouveau模块的方法参考如下:
# CentOS 7
# 编辑或新建 blacklist-nouveau.conf 文件
[root@zj ~]# vim /usr/lib/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
# 执行如下命令并重启系统使内核生效
[root@zj ~]# dracut -f
[root@zj ~]# shutdown -ry 0
2.3 配置GPU驱动内存常驻模式
打开GPU驱动内存常驻模式可以减少GPU掉卡、GPU带宽降低、GPU温度监测不到等诸多问题。建议打开GPU驱动内存常驻模式并配置开机自启动。
GPU驱动内存常驻模式检查常用方法:
nvidia-smi 输出中Persistence-M状态为on
nvidia-but-report.log中,Persistence Mode为Enabled
nvidia-smi 输出:
nvidia-but-report.log日志:
GPU 00000000:3B:00.0
Product Name : Tesla P40
Product Brand : Tesla
Display Mode : Enabled
Display Active : Disabled
Persistence Mode : Enabled
请确保现场服务器:
打开GPU驱动内存常驻模式
配置开机自启动
GPU驱动内存常驻模式开启方法&#