报错
GPU运行一段时间后出现:
Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU
可能原因
- 可能是供电不足,这种情况需要减少GPU或者更换大电源/双电源。
- 然而我的换上大电源后还是出现。我使用PCIEx16延长线后更容易出现这种情况,而且同时跑的GPU越多越容易出现。原因可能是因为driver频繁卸载加载,GPU频繁被初始化,导致GPU死机,CPU访问PCIe config registers时间过长引发softlock。
解决办法
- 如果是供电不足,换电源
- 也可能是非持久模式导致的频繁初始化,利用命令
sudo nvidia -smi -pm 1
即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local
里面,以自动执行。