pytorch训练过程显存爆炸，随着epoch增加不断增加

最新推荐文章于 2024-07-28 09:34:41 发布

RAGERAGE_

最新推荐文章于 2024-07-28 09:34:41 发布

阅读量1.2k

点赞数 1

文章标签： pytorch

本文链接：https://blog.csdn.net/ragerage_/article/details/134720080

版权

在训练时，明明前几个epoch都能正常跑，但是到了某一个epoch突然给我报显存不够了。我寻思你跑完epoch难道不释放显存的吗，为啥epoch和epoch之间的差距还这么大？

经过多方查询，多种方法的尝试，最终定位到loss的计算上。

原来我在反向传播完后会累加loss，以计算平均损失打印出来并写入tensorboard，而我在累加loss时用的是loss_epoch += loss ，此时loss会被放入计算图中一起保存，实际上除了反向传播以外，我的loss只是要那个数值而已。

所以解决办法就是在所有只需要数值的loss变量后面加上.item()

例如：loss_epoch += loss.item()

至此，问题解决。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RAGERAGE_

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

解决Pytorch 训练与测试时爆显存(out of memory)的问题

09-18

今天小编就为大家分享一篇解决Pytorch 训练与测试时爆显存(out of memory)的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pytorch 训练与测试时爆显存(out of memory)的一个解决方案

最新发布

u010522887的专栏

07-28

947

Pytorch 训模型的过程中，发现总是训练几轮后，出现显存爆炸 out-of-memory 的问题，记录这次 debug 之旅，希望对有类似问题的小伙伴有一点点帮助

记pytorch的大坑之训练的显存不断攀升

xinong123456123的博客

10-26

1670

pytorch显存爆炸，loss.item()

[原创]关于解决pytorch训练神经网络时显存一直增长的问题

weixin_46724054的博客

08-06

3018

[原创]关于解决pytorch训练神经网络时显存一直增长的问题。

【pytorch】随着epoch增加，显存逐渐增加？解决pytorch显存释放问题

weixin_43693967的博客

06-29

2015

解决pytorch训练时和测试时显存out of memory的问题。

Pytorch在训练模型时，显存不断增大，导致CUDA out of memory。

weixin_40603846的博客

11-29

5260

Pytocch训练模型踩坑记：CUDA out of memory问题解决办法

pytorch训练过程显存一直增加的问题

weixin_45710187的博客

01-13

9162

之前遇到了爆显存的问题，卡了很久，试了很多方法，总算解决了。总结下自己试过的几种方法： **1. 使用torch.cuda.empty_cache() 在每一个训练epoch后都添加这一行代码，可以让训练从较低显存的地方开始，但并不适用爆显存的问题，随着epoch的增加，最大显存占用仍然会提示out of memory 。 2.使用torch.backends.cudnn.enabled = True 和 torch.backends.cudnn.benchmark = True 原理不太清楚，用法和1

python pytorch爆显存，内存溢出问题解决方法（总结）RuntimeError: CUDA out of memory.

weixin_42569547的博客

10-17

4774

【代码】python pytorch爆显存，内存溢出问题解决方法（总结）RuntimeError: CUDA out of memory.

Pytorch训练过程中，随着Epoch增加，显存增大

weixin_45655219的博客

03-11

536

在训练过程中，第一个epoch可用，而第二个epoch显存不够。1. 检查代码，是否将大量不必要的数据放到GPU。

pytorch显存爆炸

09-23

显存爆炸是指在使用PyTorch进行深度学习训练时，显存占用不断增加，最终导致显存耗尽的问题。解决显存爆炸问题的方法有以下几种： 1. 每个epoch后不再增加GPU显存占用：这是一种较为常见的方法，通过在每个epoch...

PyTorch 微调终极指南：第 1 部分 — 预训练模型及其配置

gongdiwudu的专栏

08-09

6782

如今，在训练深度学习模型时，通过在自己的数据上微调预训练模型来迁移学习已成为首选方法。通过微调这些模型，我们可以利用他们的专业知识并使其适应我们的特定任务，从而节省宝贵的时间和计算资源。本文分为四个部分，侧重于微调模型的不同方面。

python显卡利用率_GPU Memory Problems in PyTorch（显卡爆炸与利用率不足）

weixin_42348109的博客

02-04

840

如今研究人工智能，跑深度学习算法，显卡/GPU绝对是第一大门槛，所以不管您是1080Ti还是V100，如果不能发挥出GPU的最大能力，那它可能就是不是显卡而是块普通的砖头了吧。显卡爆炸显卡爆炸和内存的使用紧密相连，特别是在代码中对某些变量的不当使用，很有可能内存泄露，从而慢慢得导致显卡OOM(out of memory)。一般来说，计算模型时显存主要是模型参数 + 计算产生的中间变量，细分可以占用...

【图像超分】论文复现：万字长文！Pytorch实现VDSR！血与泪的数据处理与训练过程总结！深度学习中的各种踩坑记录！适合各种深度学习新手！帮助你少走弯路！附PSNR最优的VDSR模型权重文件！

畅游计算机视觉的海洋

03-18

9713

【图像超分】论文精读：Accurate Image Super-Resolution Using Very Deep Convolutional Networks (VDSR)请配合上述论文精读文章使用，效果更佳！本文综合现有的VDSR相关代码，用pytorch实现极简风格的VDSR，复现论文。

PyTorch 的并行计算——PyTorch 中文文档

AI天才研究院

08-09

1423

近年来，随着深度学习模型规模和数据集的不断增长，训练时间成为了制约模型性能提升的关键因素。为了加速模型训练，并行计算技术应运而生，并逐渐成为深度学习领域的研究热点。PyTorch 作为一款流行的深度学习框架，提供了丰富的并行计算功能，可以帮助开发者轻松实现模型的并行训练，从而大幅缩短训练时间。实现数据并行，将模型复制到多个 GPU 上，并将数据分发到不同的 GPU 进行计算。实现分布式训练，支持多种后端，如 MPI、Gloo 和 NCCL。

【问题探究】如何解决pytorch训练时的显存占用递增（导致out of memory）

fish_like_apple的博客

09-26

2万+

前言： { 现在的神经网络模型，动不动就爆内存。两年前我笔记本2G的显存都绰绰有余，现在16G的P100，24G的P40却还不够。更让我郁闷的是，在pytorch训练时，显存占用竟然会不断增加，可能刚开始训练时是正常的，但是放在那里，不知道什么时候它就突然来一句out of memory，然后就尥蹶子不干了，白白浪费了很长的时间。所以这个问题我确实需要搞清楚。 } 正文： ...

pytorch训练时显存溢出

qq_45023582的博客

03-09

1934

训练时训练次数增加发生显存爆炸

Pytorch CUDA out of memory显存爆炸

haha456487的博客

12-22

2388

我在跑pytorch的时候，显存的报错如下（真的是GPU显存全部占用完了）： RuntimeError: CUDA out of memory. Tried to allocate 24.00 MiB (GPU 0; 11.92 GiB total capacity; 11.01 GiB already allocated; 7.63 MiB free; 11.22 GiB reserved in total by PyTorch) 可能的原因是： ① 在循环训练中累积历史记录具体请点击这里查看（ht