关于Pytorch训练过程中CUDA out of Memory问题

最新推荐文章于 2023-07-26 22:31:11 发布

拿铁不加糖泡泡！

最新推荐文章于 2023-07-26 22:31:11 发布

阅读量570

点赞数 1

文章标签： pytorch python 深度学习神经网络人工智能

本文链接：https://blog.csdn.net/RIU_13/article/details/129030347

版权

先上一条命令：watch --color -n1 gpustat -cpu --color

此命令用于Linux动态监测GPU情况，直接在命令行输入即可

1.如果是没有训练就报错

batch_size太大了，输入的input_ids才能真实反映batch_size，别改错了

 input_shape = input_ids.size()
 batch_size, seq_length = input_shape

2.训练了>=1轮之后报错&&显存持续增长

看一下用于backward()的变量是否有累加，有的话加上item()
比如：

total_loss = total_loss + weight*other_loss
total_loss.backward()

改成

total_loss = total_loss.item() + weight*other_loss
total_loss.backward()

具体原理：显存持续缓慢增长的究极原因 - 小米粥的文章 - 知乎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

拿铁不加糖泡泡！

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于Pytorch训练过程中CUDA out of Memory问题

训练过程中显存持续增长后爆了，报错CUDA out of Memory
复制链接

扫一扫

CUDA out of memory. (解决了)

yuuzhao的博客

08-28

2759

报错 Traceback (most recent call last): File "plastic_train.py", line 243, in <module> y, hebb = plasticnet.module(Variable(inputs[numstep], requires_grad=False), y, hebb) File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py"

pytorch出现CUDA error:out of memory错误

weixin_43979925的博客

04-10

5054

pytorch出现CUDA error:out of memory错误问题描述解决方案问题描述模型训练过程中报错，提示CUDA error:out of memory。解决方案判断模型是否规模太大或者batchsize太大，可以优化模型或者减小batchsize；比如：已分配的显存接近主GPU的总量，且仍需要分配的显存大于缓存（306M>148.3M）。 cached（...

参与评论您还未登录，请先登录后发表或查看评论

pytorch:在执行loss.backward()时out of memory报错

DaringTang的博客

05-02

7234

在自己编写SurfNet网络的过程中，出现了这个问题，查阅资料后，将得到的解决方法汇总如下可试用的方法： reduce batch size, all the way down to 1 remove everything to CPU leaving only the network on the GPU remove validation code, and only executing ...

Pytorch cuda out of memory

u014714362的博客

03-19

1万+

pytorch程序出现cuda out of memory，主要包括两种情况： 1. 在开始运行时即出现，解决方法有： a）调小batchsize b）增大GPU现存（可加并行处理） 2. 在运行过程中出现，特别是运行了很长时间后爆显存了。 a) 首先检查是否是“个别实例过长”引起的，如果程序运行时已经占用GPU的大半，非常容易出现这种情况。解决方法...

CUDA out of memory

最新发布

qq_41179293的博客

07-26

195

梯度没有清零：在每个训练批次之前，需要将模型的梯度归零，以避免梯度累积。否则，梯度会累积在计算图中，导致显存无法释放。确保在每个批次开始之前，使用optimizer.zero_grad()清零梯度。出现了好几次这个问题，一直不知道该怎么处理，作为小白的我，终于在刚刚发现，居然是因为每个batch没有清理显存，导致一直占用着，主要是因为我没有在每个batch进行。我变成在算是在一个epoch结束后再去进行梯度清零了，所以一下子就爆了。

pytorch 在运行代码时，报错CUDA out of memory时候，的一些解决方法

weixin_48127442的博客

03-25

1201

pytorch 在运行代码时，报错CUDA out of memory时候，的一些解决方法方法一：修改bachsize的大小。 bachsize越大，需要的空间越大，所以应该将bachsize适当调小一点。方法二：修改每次处理的图片数量。 batchimage：每次处理的图片数量越多，则需要分配越多的内存，因此，当在自己的笔记本上跑小的模型的时候，出现内存错误，可以将batchimage的数目调小一点，这样需要的内存则要少一些。方法三：修改数据集大小如果在笔记本上跑代码时候，出现以上的内存不足问题

PyTorch训练LSTM时loss.backward()报错

qq_31375855的博客

07-24

5265

训练用PyTorch编写的LSTM或RNN时，在loss.backward()上报错： RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time. 千万别改成loss.backward(retain_graph=True)，会导致

Pytorch显存充足出现CUDA error:out of memory错误

Hungry_Shell的博客

08-17

9469

Pytorch显存充足出现CUDA error:out of memory错误 Ref: https://www.cnblogs.com/jisongxie/p/10276742.html 报错内容 ![image.png](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvNjAyMzUwLzE1OTc2NTM0ODcxMzktNDQ5N2JmZDItMzBhYi00NzMzLTg2ZD

Pytorch GPU显存充足却显示out of memory的解决方式

09-18

在使用PyTorch进行深度学习模型训练时，有时会遇到一个常见的问题，即GPU显存充足，但在运行过程中却报出“out of memory”错误。这种情况可能会让人困惑，因为直观上，既然显存足够，就不应该出现这样的问题。本文...

解决Pytorch 训练与测试时爆显存(out of memory)的问题

09-18

在使用PyTorch进行深度学习模型的训练和测试过程中，可能会遇到“显存溢出”（Out of Memory，OOM）的问题。这个问题通常是由于GPU内存不足以存储所有计算所需的张量而导致的。以下是一些解决PyTorch训练与测试时...

pytorch训练模型出现cuda out of memory，请问有哪些可能的情况以及如何修改

03-28

出现"cuda out of memory"错误通常有以下几种情况： 1.模型过大或者batch size过大，导致显存不足。 2.使用多个GPU进行训练时，其中一个...总之，解决"cuda out of memory"问题的关键在于优化代码和控制显存的使用。

【转】Pytorch：cuda out of memory

One1994的博客

01-15

4390

https://oldpan.me/archives/how-to-calculate-gpu-memory https://zhuanlan.zhihu.com/p/31558973 https://blog.csdn.net/qq_28660035/article/details/80688427[全面]

pytorch模型提示超出内存cuda runtime error(2): out of memory

热门推荐

学习、记录、分享

11-23

2万+

看到这个提示，表示您的GPU内存不足。由于我们经常在PyTorch中处理大量数据，因此很小的错误可能会迅速导致程序耗尽所有GPU; 好的事，这些情况下的修复通常很简单。这里有几个常见检查事项包括：一、不要在循环训练中累积历史记录。默认情况下，涉及需要求导/梯度gradients变量的计算将保存在内存中。计算中避免使用这些变量，例如在跟踪统计数据时，这些变量在循环训练中将超出你内存。相反，您...

pytorch在训练时，显示内存不够 cuda out of memory

h4934560的博客

11-28

2938

在跑代码时，训练集跑的时候正常，在测试验证集和保存模型的时候，提示内存不够，直接报错终止，这种一般并不是batchsize过大导致的，不然训练集也运行不起来，最简单直接的方法，就是把验证集放到cpu上，一般验证集的数据比较小，也很快就完成了例如： imgn_val =Variable(imgn_val.cuda(), requires_grad=False) out_val = torch.clamp(model(imgn_val), 0., 1.) 这里把验证集转到cpu里，去掉 .cuda()即可

Pytorch在训练模型时，显存不断增大，导致CUDA out of memory。

weixin_40603846的博客

11-29

5178

Pytocch训练模型踩坑记：CUDA out of memory问题解决办法

解决Cuda out of memory的一种思路

qq_33977080的博客

04-30

8774

在实际做实验的过程中，cuda of memory问题很常见，在整理过网上的思路后，大致有如下几种：减小batch_size（常用）或减小模型参数和输入的大小（很少用到）。在测试过程中加上如下语句：with torch.no_grad() 内存就不会分配参数梯度的空间。训练过程中遇到此情况可尝试在训练前释放cuda内存。nvidia-smi 查看gpu的使用率，若使用率不高就使用torch.cuda.empty_cache()释放内存这次又出现了新的问题，我将我遇到的情况总结如下： #在修

Pytorch内存溢出，Ubuntu进程killed

Coding呆呆的博客

12-15

3567

pytorch显存越来越多的一个原因 optimizer.zero_grad() loss.backward() optimizer.step() train_loss += loss 参考了别人的代码发现那句loss一般是这样写 loss_sum += loss.data[0] 这是因为输出的loss的数据类型是Variable。而PyTorch的动态图机制就是通过Variable来构建图。...

pytorch 训练过程中缓存不断增大 and loss.backword()占用缓存过大

咖乐部

02-08

1063

total_loss += loss.cpu().detach().numpy()