【机器学习】Pytorch多GPU训练的CUDA错误

最近用pytorch进行多GPU训练,遇到一个问题,现记录一下问题详情和解决方法。
我用windows pytorch跑的,单个网络占据约4G显存,显卡约11G显存,一个显卡只能跑两个sample。当我batch_size设置为2,GPU设置为两块时,每个GPU显存绰绰有余,跑起来没啥问题。当batch_size设置为4,每个GPU跑两个sample,显存占据约8G,时不时遇到一个错误然后就退出了:CUDA Error: unspecified launch failure. 然后也没有其他的出错提示。
我注意到有时候会提示出错的代码位置,是把读取的sample数据转到GPU的那行代码。网上搜索发现一个回答是,这是CUDA内存错误。8G显存占用,总共11G显存,应该不会显存不足,就算显存不足也应该报错out of memory。我用的pytorch,应该信任facebook大公司不会出现低级错误,所以又继续找。
后来发现有人说是windows的GPU设置了响应时间,超出响应的程序都会被自动关闭。
于是我去HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\GraphicsDrivers,找到TdrLevel设置为0,为了保险起见,同时把TdrDelay从2秒设置为100秒,终于能顺利跑完网络了。所以原因应该是:读取数据速度不够,GPU搞了很久才把数据搬过来,这段时间被windows掐断了。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值