pytorch 训练过程中缓存不断增大 and loss.backword()占用缓存过大

最新推荐文章于 2024-05-18 14:53:15 发布

咖乐布小部

最新推荐文章于 2024-05-18 14:53:15 发布

阅读量911

点赞数

文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_42253689/article/details/128942849

版权

1. 模型训练过程中会保存一些数据或者loss等，如

out, loss = model(data)
total_loss += loss
result = out.last_hidden_state

这样的句子由于loss 和 out都还在cuda的缓存中，会造成模型在训练过程中占据的缓存不断增大。

修改成如下即可：

out, loss = model(data)
total_loss += loss.cpu().detach().numpy()
result = out.last_hidden_state.cpu().detach().numpy()

2. 此外，在训练过程中发现loss.backword() 会占据CUDA很大的memory，这可能是模型太过复杂，可以检查模型中是否有可以不用计算梯度的部分，如固定预训练模型

如果有可以通过torch.no_grad()使这一部分不计算梯度,从而使占用的缓存大幅减小


bert = BertModel.from_pretrained('bert_base_uncased')

def model(data):
    with torch.no_grad():
        output = bert(data)
    result = nn.leanear(output)

优惠劵

咖乐布小部

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pytorch 训练过程中缓存不断增大 and loss.backword()占用缓存过大

total_loss += loss.cpu().detach().numpy()
复制链接

扫一扫

【pytorch训练过程中服务器内存逐渐增加至process killed】

CRDarwin的博客

04-06

1611

pytorch训练过程中服务器内存逐渐增加至process killed 背景说明之前写过一篇帖子是显存占用逐渐增加到爆，同样的代码，最近又出现一个问题：服务器的RAM在训练过程中，mem used这一项逐渐增加，直到进程被killed。原因还是代码中有一个memory bank，需要把深度模型提取到的特征全部保存下来，进一步分析处理。解决过程分析看帖子其他人讲到使用memory_profiler来分析每行代码的内存使用情况。这个工具很好用，可以统计每行代码执行后使用内存增加/减少数目，帮助锁定内存

终于解决pytorch训练过程中CPU内存溢出的问题

weixin_44616692的博客

06-03

1830

期待了一晚上的结果，早上起来竟然发现CPU内存溢出导致程序奔溃了，今天郁闷了一天。。。经查询，内存溢出的常见原因有：loss求和未加item()num_workers过大大量使用list转tensor。

1 条评论您还未登录，请先登录后发表或查看评论

pytorch训练中内存一直增加的原因

qq_42178122的博客

09-05

6165

代码中存在累加loss,但是每步的loss没加item() 例如下面例子; import torch import torch.nn as nn from collections import defaultdict if torch.cuda.is_available(): device = 'cuda' else: device = 'cpu' model = nn.Linear(100, 400).to(device) criterion = nn.L1Loss(reduction

Pytorch损失函数nn.NLLLoss2d()用法说明

09-16

主要介绍了Pytorch损失函数nn.NLLLoss2d()用法说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip

11-15

基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以运行。也可作为期末大作业。基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以运行。也可作为期末大作业。基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以运行。也可作为期末大作业。基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以运行。也可作为期末大作业。基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以运行。也可作为期末大作业。基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以

解决Pytorch训练过程中loss不下降的问题

09-18

今天小编就为大家分享一篇解决Pytorch训练过程中loss不下降的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

pytorch训练过程中内存一直慢慢增长直到爆

CRDarwin的博客

08-27

9835

原因：代码中需要多次用到一个高维tensor，没一个batch都要更新一次它的值，这个值的获得需要过一次网络心路历程：刚开始以为是传参活着内存释放的问题，又深入研究了python，用了很多del、gc.collect()语句，发现内存释放不掉，还是随着训练过程逐渐增长最终解决：因为是把两个代码的方法往一个整，又看了源码，看到源代码过网络的时候用了with torch.no_grad()这个语句，就试了一下，没想到就是这个问题，困了我两三天啊阿啊分析：应该是没有这个语句的话，因为可能要求导，所以pyto

Python Bug 关于PyTorch-Dataset 内存持续增长bug

zhziqiang的博客

09-06

1302

python List[Dict] bug

Pytorch训练深度强化学习时CPU内存占用一直在快速增加

qq_31239371的博客

10-19

2083

说白了，就是经验池的存储函数，也就是因为一直往经验池里加数据导致内存增加。想了想，原来是我最近修改了算法输入，把图像作为状态输入的一部分了，此外换了配置更好的电脑，程序运行速度也提升了。二者综合作用下，内存才会有明显增加，从而被我发现！（我真是脑子抽了，这么简单的问题一直没想到。最近在用MATD3算法解决多机器人任务，但是在训练过程中，CPU内存一直在增加（注意，不是GPU显存）。我很头疼，以为是算法代码出了问题，导致了内存泄漏，折腾了1天也没解决。解决方法：终极方法就是换大内存。

pytorch训练时内存被占满导致训练终止

qq_43561292的博客

12-10

2269

OSError: [Errno 12] Cannot allocate memory RuntimeError: DataLoader worker (pid 10443) is killed by signal

pytorch中交叉熵损失(nn.CrossEntropyLoss())的计算过程详解

09-18

今天小编就为大家分享一篇pytorch中交叉熵损失(nn.CrossEntropyLoss())的计算过程详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pytorch训练过程中改变模型参数 requires_grad 属性

01-20

如果模型只在一块GPU上跑，该过程非常简单，只需要训练中途迭代model的 parameters，然后改变各个param的requires_grad 属性即可： for name, param in model.named_parameters(): logger.info('parameter of %s'%name) logger.info('before requires_grad is : %s'%param.requires_grad) param.requires_grad = True logger.info('after requires_gr

【问题探究】如何解决pytorch训练时的显存占用递增（导致out of memory）

fish_like_apple的博客

09-26

1万+

前言： { 现在的神经网络模型，动不动就爆内存。两年前我笔记本2G的显存都绰绰有余，现在16G的P100，24G的P40却还不够。更让我郁闷的是，在pytorch训练时，显存占用竟然会不断增加，可能刚开始训练时是正常的，但是放在那里，不知道什么时候它就突然来一句out of memory，然后就尥蹶子不干了，白白浪费了很长的时间。所以这个问题我确实需要搞清楚。 } 正文： ...

Pytorch在训练模型时，显存不断增大，导致CUDA out of memory。

weixin_40603846的博客

11-29

4837

Pytocch训练模型踩坑记：CUDA out of memory问题解决办法

pytorch loss.backword() 时间太长

咖乐部

02-07

2254

tensor_a = tensor_b.clone().detach()

大模型如transformers的提高训练速度，减少内存使用的方法

zephyr_wang的博客

09-30

1656

大模型如transformers的提高训练速度，减少内存使用的方法

loss，loss.cpu().data 及 loss.cpu().detach().numpy()等辨析

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交