gpu显示off_GPU常见故障及排查方法

本文详细介绍了GPU常见故障的排查方法,包括GPU日志收集、系统状态检测、驱动更新与禁用nouveau模块、内存常驻模式配置、GPU序列号获取。针对GPU不识别、带宽异常、retired pages计数等问题,提供了检查和处理建议,如GPU对调测试、带宽检查、ECC计数判断,旨在帮助用户解决GPU相关故障。
摘要由CSDN通过智能技术生成

GPU常见故障及排查方法

1. GPU日志收集

安装GPU驱动的系统下,root用户任意目录下执行命令:nvidia-bug-report.sh

执行命令后,当前目录下会生成日志压缩包:nvidia-bug-report.log.gz

2. 系统状态检测

对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。

对于GPU服务器,建议进行以下配置:

维持较新的、正确的GPU驱动版本

禁用nouveau模块

打开GPU驱动内存常驻模式并配置开机自启动

GPU故障后,建议使用ipmitool power reset命令对服务器进行冷重启后观察故障是否消失或重现

2.1 检查GPU驱动

GPU驱动下载注意事项:

从NVIDIA官网进行GPU驱动下载

选择正确的GPU型号

对于64位linux建议直接选择linux 64-bit

选择NVIDIA“推荐/认证”的驱动

2.2 禁用nouveau 模块

nouveau是NVIDIA显卡的开源驱动程序,会与NVIDIA官方GPU驱动发生冲突,需要在系统下禁用nouveau模块。

# 以下命令没有任何输出表示nouveau模块已经禁用

[root@zj ~]# lsmod | grep -i nouveau

# 以下输出表示nouveau模块没有禁用

[root@zj ~]# lsmod | grep -i nouveau

nouveau 1662531 0

mxm_wmi 13021 1 nouveau

wmi 19086 2 mxm_wmi,nouveau

i2c_algo_bit 13413 1 nouveau

video 24538 1 nouveau

drm_kms_helper 176920 2 nouveau,vmwgfx

ttm 99555 2 nouveau,vmwgfx

drm 397988 6 ttm,drm_kms_helper,nouveau,vmwgfx

i2c_core 63151 5 drm,i2c_piix4,drm_kms_helper,i2c_algo_bit,nouveau

禁用nouveau模块的方法参考如下:

# CentOS 7

# 编辑或新建 blacklist-nouveau.conf 文件

[root@zj ~]# vim /usr/lib/modprobe.d/blacklist-nouveau.conf

blacklist nouveau

options nouveau modeset=0

# 执行如下命令并重启系统使内核生效

[root@zj ~]# dracut -f

[root@zj ~]# shutdown -ry 0

2.3 配置GPU驱动内存常驻模式

打开GPU驱动内存常驻模式可以减少GPU掉卡、GPU带宽降低、GPU温度监测不到等诸多问题。建议打开GPU驱动内存常驻模式并配置开机自启动。

GPU驱动内存常驻模式检查常用方法:

nvidia-smi 输出中Persistence-M状态为on

nvidia-but-report.log中,Persistence Mode为Enabled

nvidia-smi 输出:

​ nvidia-but-report.log日志:

GPU 00000000:3B:00.0

Product Name : Tesla P40

Product Brand : Tesla

Display Mode : Enabled

Display Active : Disabled

Persistence Mode : Enabled

请确保现场服务器:

打开GPU驱动内存常驻模式

配置开机自启动

GPU驱动内存常驻模式开启方法&#

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值