故障的现象是:运行命令$ nvidia-smi
之后要么不显示显卡的情况,要么显示很缓慢。并且结果中有ERR! 提示
定位:
- 查看显卡情况:
$ nvidia-smi
,可以看到有一张显卡出现了故障。
并且只要有这张显卡插在服务器上,这个命令的输出都会非常缓慢
可以看到,循坏的显卡BUS-ID是02;如何找到这张显卡呢? - 通过
$ nvidia-smi -q
查看BUS-ID和显卡的序列号之间的对应关系
可以看到,损坏的显卡(BUS-ID 02)的序列号(Serial Number)尾号为4953。那这张显卡插在哪个PCIE卡槽? - 通过
$ sudo dmidecode -t slot
查看BUS-ID (BUS Address)和卡槽的对应关系: