更多关注: https://github.com/chanhal https://www.zhihu.com/people/chanhal [email protected] 寻找多GPU中出错的显卡详解 问题 在深度学习计算环境中可能安装了多块GPU显卡,由于显卡质量原因,机房电压、温度原因可能导致某块,或者某几块显卡坏掉。如何在不打开机箱的情况下判断是哪块显卡出现问题,对于机器在远程机房的情况下,有关键的作用。如果是哪块显卡出现问题的都不知道,怎么远程知道别人帮你维护呢? 另外,通过命令行是无法查询GPU的Serial Number等具有标志性的识别码。