最近用pytorch进行多GPU训练,遇到一个问题,现记录一下问题详情和解决方法。
我用windows pytorch跑的,单个网络占据约4G显存,显卡约11G显存,一个显卡只能跑两个sample。当我batch_size设置为2,GPU设置为两块时,每个GPU显存绰绰有余,跑起来没啥问题。当batch_size设置为4,每个GPU跑两个sample,显存占据约8G,时不时遇到一个错误然后就退出了:CUDA Error: unspecified launch failure. 然后也没有其他的出错提示。
我注意到有时候会提示出错的代码位置,是把读取的sample数据转到GPU的那行代码。网上搜索发现一个回答是,这是CUDA内存错误。8G显存占用,总共11G显存,应该不会显存不足,就算显存不足也应该报错out of memory。我用的pytorch,应该信任facebook大公司不会出现低级错误,所以又继续找。
后来发现有人说是windows的GPU设置了响应时间,超出响应的程序都会被自动关闭。
于是我去HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\GraphicsDrivers,找到TdrLevel设置为0,为了保险起见,同时把TdrDelay从2秒设置为100秒,终于能顺利跑完网络了。所以原因应该是:读取数据速度不够,GPU搞了很久才把数据搬过来,这段时间被windows掐断了。
【机器学习】Pytorch多GPU训练的CUDA错误
最新推荐文章于 2024-01-30 15:21:12 发布