[BUG 记录] Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system

报错

GPU运行一段时间后出现:
Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU

可能原因

  • 可能是供电不足,这种情况需要减少GPU或者更换大电源/双电源。
  • 然而我的换上大电源后还是出现。我使用PCIEx16延长线后更容易出现这种情况,而且同时跑的GPU越多越容易出现。原因可能是因为driver频繁卸载加载,GPU频繁被初始化,导致GPU死机,CPU访问PCIe config registers时间过长引发softlock。

解决办法

  • 如果是供电不足,换电源
  • 也可能是非持久模式导致的频繁初始化,利用命令sudo nvidia -smi -pm 1即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local里面,以自动执行。

参考

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值