【机器学习】Pytorch多GPU训练的CUDA错误

最新推荐文章于 2024-01-30 15:21:12 发布

artzers

最新推荐文章于 2024-01-30 15:21:12 发布

阅读量2.4k

点赞数 1

分类专栏：模式识别与机器学习 python

本文链接：https://blog.csdn.net/lpsl1882/article/details/88909045

版权

模式识别与机器学习同时被 2 个专栏收录

46 篇文章 6 订阅

订阅专栏

python

32 篇文章 2 订阅

订阅专栏

最近用pytorch进行多GPU训练，遇到一个问题，现记录一下问题详情和解决方法。
我用windows pytorch跑的，单个网络占据约4G显存，显卡约11G显存，一个显卡只能跑两个sample。当我batch_size设置为2，GPU设置为两块时，每个GPU显存绰绰有余，跑起来没啥问题。当batch_size设置为4，每个GPU跑两个sample，显存占据约8G，时不时遇到一个错误然后就退出了：CUDA Error: unspecified launch failure. 然后也没有其他的出错提示。
我注意到有时候会提示出错的代码位置，是把读取的sample数据转到GPU的那行代码。网上搜索发现一个回答是，这是CUDA内存错误。8G显存占用，总共11G显存，应该不会显存不足，就算显存不足也应该报错out of memory。我用的pytorch，应该信任facebook大公司不会出现低级错误，所以又继续找。
后来发现有人说是windows的GPU设置了响应时间，超出响应的程序都会被自动关闭。
于是我去HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\GraphicsDrivers，找到TdrLevel设置为0，为了保险起见，同时把TdrDelay从2秒设置为100秒，终于能顺利跑完网络了。所以原因应该是：读取数据速度不够，GPU搞了很久才把数据搬过来，这段时间被windows掐断了。

artzers

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
6
评论
【机器学习】Pytorch多GPU训练的CUDA错误

最近用pytorch进行多GPU训练，遇到一个问题，现记录一下问题详情和解决方法。我用windows pytorch跑的，单个网络占据约4G显存，显卡约11G显存，一个显卡只能跑两个sample。当我batch_size设置为2，GPU设置为两块时，每个GPU显存绰绰有余，跑起来没啥问题。当batch_size设置为4，每个GPU跑两个sample，显存占据约8G，时不时遇到一个错误然后就退出了...
复制链接

扫一扫