背景:GPU物理服务器,nvidia-smi 发现少了一张GPU显卡;
nvidia-smi
服务器型号:4028GR-TR
此情况仅供参考
一、1.分析:先查看显卡是否在插槽上,命令:
lspci | grep NVIDIA | grep VGA
结果:显卡均在槽位上
2.与业务沟通,服务器是否能停止服务,尝试重启服务器;如果重启-能够重新识别则结束;
3.仍然无法识别,尝试物理方法:
3.1找到对应物理GPU;
3.2.nvidia-smi 命令发现 少了89:00.0的GPU,但lspci能发现存在
3.3. dmidecode -t slot 找对应89:00.0的信息,grep -C <num>
表示显示匹配行前后 num
行文本
dmidecode -t slot | grep 89:00.0 -C 10
找到对应的CPU2 SLOT2 之后再主板上的pcie口,旁边找到写有对应的cpu2 slot 2
二、在主板上,找到对应的GPU拆下即可;
(如果显卡插上挡住看不到,先拆下一张,判断顺序,在拆下对应PCIE槽位上的显卡)
三、最后:
1.拔插,再重启尝试一下,是否能识别;
2.拔插还是不行,考虑更换显卡;
//记一次操作//