运维监控 GPU 的alive的存活状态 发现了一下一些坑 1 供电不足导致 gpu掉线。 我们用的是 1080, 结果功率低于500W, 不足以支撑 gpu,风扇,等配套硬件的功率, 所以导致gpu掉线。 最后,增加供电功率。 2 nvidia-smi 检查存活状态及温度时, 命令延迟 nvidia-smi 这条命令就一直卡在那, 最后借用 timeout 这个命令, 超时自动kill ,