【问题探究】如何解决pytorch训练时的显存占用递增（导致out of memory）

最新推荐文章于 2024-05-26 12:05:39 发布

爱吃苹果的魚

最新推荐文章于 2024-05-26 12:05:39 发布

阅读量1.9w

点赞数 32

分类专栏：问题探究 python 神经网络实践文章标签： pytorch 神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fish_like_apple/article/details/101448551

版权

前言：

{

现在的神经网络模型，动不动就爆内存。两年前我笔记本2G的显存都绰绰有余，现在16G的P100，24G的P40却还不够。更让我郁闷的是，在pytorch训练时，显存占用竟然会不断增加，可能刚开始训练时是正常的，但是放在那里，不知道什么时候它就突然来一句out of memory，然后就尥蹶子不干了，白白浪费了很长的时间。所以这个问题我确实需要搞清楚。

}

正文：

{

首先，我要说一个比较野蛮的办法，就是单独写一个训练脚本，其开始时先载入模型，结束时再保存模型。然后把数据集分割成更小的子数据集（小到模型不会因为显存而尥蹶子不干）。当然，训练脚本的输出参数应当包含数据集（编号）和/或子数据集（编号）。

我去谷歌上搜了一下，最先看到的是[1]，上面建议用del删除一些变量，我尝试过用del在每次迭代后删除所有能删除的变量（输入，输出，损失），但是不起效果，模型还是会在同样的迭代次数后报错。

后来我又找到了[2]，上面说之后再加上torch.cuda.empty_cache()，这次成功了。

也就是说，del操作后再加上torch.cuda.empty_cache()才会起效果!代码1是一个例子。

#代码1。
"""添加了最后两行，i

最低0.47元/天解锁文章

爱吃苹果的魚

关注

32
点赞
踩
116

收藏

觉得还不错? 一键收藏
34
评论
【问题探究】如何解决pytorch训练时的显存占用递增（导致out of memory）

前言：{ 现在的神经网络模型，动不动就爆内存。两年前我笔记本2G的显存都绰绰有余，现在16G的P100，24G的P40却还不够。更让我郁闷的是，在pytorch训练时，显存占用竟然会不断增加，可能刚开始训练时是正常的，但是放在那里，不知道什么时候它就突然来一句out of memory，然后就尥蹶子不干了，白白浪费了很长的时间。所以这个问题我确实需要搞清楚。}正文：...
复制链接

扫一扫

专栏目录

评论 34

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。