【服务器管理】nvidia-smi命令返回GPU的Bus-Id与显卡的实际位置关系

【服务器管理】nvidia-smi命令返回的GPU的Bus-Id与显卡的实际位置关系


写本文的目的是希望通过Bus-Id确定实际出现问题的显卡,而不是盲目地对主机进行检查!
我们在维护服务器的GPU的时候,最常使用的命令就是

watch -n 1 nvidia-smi

或者

nvidia-smi

查看显卡行号:

nvidia-smi -L

返回的结果如下:
在这里插入图片描述
这里,Bus-Id格式如下domain:bus:device.function,我们可以通过bus来确定显卡的实际位置。

查阅了众多文献,都没有说明Bus-Id与显卡实际位置的关系,这里,经过我一一测试,Bus-Id与实际插槽之间存在如下关系:
在这里插入图片描述
也就是,从左往右依次是:
88、89、B1、B2、3D、3E、1A、1B

这样子,我们在以后就可以根据nvidia-smi返回的报错信息来确定是哪个位置的显卡出现了问题,例如:
报错:

Unable to determine the device handle for GPU 0000:B1:00.0: Unknown Error

说明B1位置(从左往右第3个插槽位置的显卡)存在未知错误,那么,我们就可以针对该位置检查“是不是电源线没插稳”、“是不是电源线供电不足”、“是不是显卡本身有问题”。
检查的方法也很简单,采用控制变量法,“换正常的电源线看看能否正常工作”、“换能正常工作的显卡确定能否正常工作”!

【作者简介】陈艺荣,男,目前在华南理工大学电子与信息学院广东省人体数据科学工程技术研究中心攻读博士,担任IEEE AccessIEEE Photonics Journal审稿人。两次获得美国大学生数学建模竞赛(MCM)一等奖,获得2017年全国大学生数学建模竞赛(广东赛区)一等奖、2018年广东省大学生电子设计竞赛一等奖等科技竞赛奖项,主持一项2017-2019年国家级大学生创新训练项目获得优秀结题,参与两项广东大学生科技创新培育专项资金、一项2018-2019年国家级大学生创新训练项目获得良好结题,发表SCI论文3篇,授权实用新型专利8项,受理发明专利13项。
我的主页
我的Github
我的CSDN博客
我的Linkedin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YirongChen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值