【服务器管理】nvidia-smi命令返回的GPU的Bus-Id与显卡的实际位置关系
写本文的目的是希望通过Bus-Id确定实际出现问题的显卡,而不是盲目地对主机进行检查!
我们在维护服务器的GPU的时候,最常使用的命令就是
watch -n 1 nvidia-smi
或者
nvidia-smi
查看显卡行号:
nvidia-smi -L
返回的结果如下:
这里,Bus-Id格式如下domain:bus:device.function
,我们可以通过bus
来确定显卡的实际位置。
查阅了众多文献,都没有说明Bus-Id与显卡实际位置的关系,这里,经过我一一测试,Bus-Id与实际插槽之间存在如下关系:
也就是,从左往右依次是:
88、89、B1、B2、3D、3E、1A、1B
这样子,我们在以后就可以根据nvidia-smi返回的报错信息来确定是哪个位置的显卡出现了问题,例如:
报错:
Unable to determine the device handle for GPU 0000:B1:00.0: Unknown Error
说明B1位置(从左往右第3个插槽位置的显卡)存在未知错误,那么,我们就可以针对该位置检查“是不是电源线没插稳”、“是不是电源线供电不足”、“是不是显卡本身有问题”。
检查的方法也很简单,采用控制变量法,“换正常的电源线看看能否正常工作”、“换能正常工作的显卡确定能否正常工作”!
【作者简介】陈艺荣,男,目前在华南理工大学电子与信息学院广东省人体数据科学工程技术研究中心攻读博士,担任IEEE Access、IEEE Photonics Journal的审稿人。两次获得美国大学生数学建模竞赛(MCM)一等奖,获得2017年全国大学生数学建模竞赛(广东赛区)一等奖、2018年广东省大学生电子设计竞赛一等奖等科技竞赛奖项,主持一项2017-2019年国家级大学生创新训练项目获得优秀结题,参与两项广东大学生科技创新培育专项资金、一项2018-2019年国家级大学生创新训练项目获得良好结题,发表SCI论文3篇,授权实用新型专利8项,受理发明专利13项。
我的主页
我的Github
我的CSDN博客
我的Linkedin