RuntimeError: CUDA out of memory. Tried to allocate XX.XX MiB. pytorch训练超出撑爆显存的问题

最新推荐文章于 2024-06-13 23:10:33 发布

nlp瞎搞工程师

最新推荐文章于 2024-06-13 23:10:33 发布

阅读量1.7k

点赞数 2

文章标签： pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54484261/article/details/115770179

版权

1、batch_size设置过大

这种比较好理解，就是单卡batch_size设置大了，数据量就大了，显存可能就放不下了。不过一般batch_size也不宜设置过小，不然如果batch里含有噪声数据其占比就会较大，对模型训练影响就比较大，有时就会把模型训飞了（亲身经历）。

如果batch_size已经调的较小了还是爆了显存，可能就是别的问题了，接着往下看。

2、中间变量多。删除清显存

一般pytorch模型动态图是写在模型类forward函数里，可以理解为显存里主要放了forward函数里的各个变量和其定义的动态计算图。所以定义动态图的时候少写中间变量，能用一行代码解决就用一行。

还有用torch.cuda.empty_cache()在一个batch训练完及时释放内存，比如

del outputs, loss                    # 先删除
torch.cuda.empty_cache()             # 再释放

这条我试了下，作用有但没那么大，治标不治本。接着往下。

3、检查梯度

还有一部分占用显存

最低0.47元/天解锁文章

nlp瞎搞工程师

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
RuntimeError: CUDA out of memory. Tried to allocate XX.XX MiB. pytorch训练超出撑爆显存的问题

RuntimeError: CUDA out of memory. Tried to allocate XX.XX MiB. pytorch训练超出撑爆显存的问题1、batch_size设置过大这种比较好理解，就是单卡batch_size设置大了，数据量就大了，显存可能就放不下了。不过一般batch_size也不宜设置过小，不然如果batch里含有噪声数据其占比就会较大，对模型训练影响就比较大，有时就会把模型训飞了（亲身经历）。如果batch_size已经调的较小了还是爆了显存，可能就是别的问题了，接
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。