如何定位有故障的显卡,查看序列号,更换

当运行命令出现显卡显示异常或缓慢,且存在ERR!提示时,可以通过查看显卡状态确定故障显卡的BUS-ID。利用命令获取序列号,找出尾号为4953的故障显卡对应于SLOT-2。拔下故障显卡进行维修,注意BUS-ID可能随服务器配置变动,依赖序列号和卡槽定位更准确。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

故障的现象是:运行命令$ nvidia-smi之后要么不显示显卡的情况,要么显示很缓慢。并且结果中有ERR! 提示

定位:

  1. 查看显卡情况:$ nvidia-smi,可以看到有一张显卡出现了故障。
    并且只要有这张显卡插在服务器上,这个命令的输出都会非常缓慢
    在这里插入图片描述
    可以看到,循坏的显卡BUS-ID是02;如何找到这张显卡呢?
  2. 通过$ nvidia-smi -q 查看BUS-ID和显卡的序列号之间的对应关系
    在这里插入图片描述
    可以看到,损坏的显卡(BUS-ID 02)的序列号(Serial Number)尾号为4953。那这张显卡插在哪个PCIE卡槽?
  3. 通过$ sudo dmidecode -t slot 查看BUS-ID (BUS Address)和卡槽的对应关系:
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值