在用3个GPU跑数据集的时候,总是跑了不到三分钟吧就会出现Unable to determine the device handle for GPU 0000:83:00.0: GPU is lost.Reboot the system to recover,但是如果一个GPU跑的话就可以正常运行,我在网上看了很多解决方法,大多都是说显卡驱动和cuda的版本不对,但是我都试过了发现还是不对,最后发现是有一个显卡没有跟其他显卡连接起来,如图所示,连接上去之后就可以正常运行了,提供一个解决思路。
在用3个GPU跑数据集的时候,总是跑了不到三分钟吧就会出现Unable to determine the device handle for GPU 0000:83:00.0: GPU is lost.Reboot the system to recover,但是如果一个GPU跑的话就可以正常运行,我在网上看了很多解决方法,大多都是说显卡驱动和cuda的版本不对,但是我都试过了发现还是不对,最后发现是有一个显卡没有跟其他显卡连接起来,如图所示,连接上去之后就可以正常运行了,提供一个解决思路。