模型训练时gpu内存不足的解决办法

最新推荐文章于 2025-03-10 07:00:00 发布

lppfwl

最新推荐文章于 2025-03-10 07:00:00 发布

阅读量2w

点赞数 24

分类专栏： pytorch 文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/lppfwl/article/details/121135771

版权

最近在训练微调bert预训练模型的时候，gpu内存老是不足，跑不了一个epoch就爆掉了，在网上来来回回找了很多资料，这里把一些方法总结一下：

半精度训练

半精度float16比单精度float32占用内存小，计算更快，但是半精度也有不好的地方，它的舍入误差更大，而且在训练的时候有时候会出现nan的情况(我自己训练的时候也遇到过，解决方法可以参考我的另一篇博客)。
模型在gpu上训练，模型和输入数据都要.cuda()一下，转成半精度直接input.half()和model.half() 就行了。
另外，还有混合精度训练，可以参考：https://zhuanlan.zhihu.com/p/103685761

累积梯度

一般我们在训练模型的时候都是一个batch更新一次模型参数，但是在gpu内存不够的时候batchsize就不能设的比较大，但是batchsize比较小又影响模型的性能和训练速度。
这个时候累积梯度的作用就出来了，累积梯度就是让模型累积几个batch的梯度之后再更新参数，相当于变相增大batchsize。具体的实现代码如下：

# 梯度累积，相当于增大batch_size
loss.backward()  # 计算梯度
accumulation_steps = ４
if ((i + 1) % accumulation_steps) ==

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lppfwl

关注关注

24
点赞
踩
112

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

训练PyTorch模型时，GPU 利用率低且训练速度慢...如何解决？

**My Coding Family**

04-16

1122

🏆本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！备注：部分问题/疑难杂症搜集于互联网。

tensorflow-gpu 和cpu使用训练ssd模型感想(显卡内存不足解决办法)

sunrise的博客

08-02

1万+

ssd 模型对于GPU ,CPU来说都适用，但是通过我的训练de'd得到的一下经验来说，GPU训练时基本不到1秒每步，而cpu在使用avx2的基础上，训练的每步需要将近1分钟，可想而知GPU训练是cpu训练的60倍左右，这将大大提高大家的训练速度。而且，之前我yong用cpu版本训练时ssd model训练1000步需要花7-8个小时，现在用GPU只需要10分钟就足以，由此可见，对于...

4 条评论您还未登录，请先登录后发表或查看评论

模型训练遇到数据量太大而导致内存不够问题？今天教你一招

Python数据挖掘

10-25

5914

sklearn中不少模块支持迭代训练和处理，特点是这些模块包含方法。在使用过程中需要考虑处理数据集为多批次的过程，需要考虑批大小和批个数，同时也需要考虑对最终精度的影响。与使用全量数据的处理相比，使用迭代训练和处理在效果和精度上可能会稍差，但可以在内存有限的情况下使用。

训练模型，内存、显存Out of memory问题

夏目里奇的博客

01-17

6641

1.背景最近尝试训练模型时，出现内存不足的问题，此外还遇到了显存不足的问题。尝试了网上的一些方法，发现没用或用不了：混合精度运算即半浮点数精度训练，首先试了apex这个库，结果发现没用，别的博客说pascal构架的显卡用不了，结果笔记本1050ti好像就是此构架。手动设置所有float()为half()类型，也还是不行。降低批次已经为1了，还怎么降，索性去掉BN层，然后还是提示显存...

大模型训练中显存不足的优化策略：高效解决显存瓶颈

最新发布

gs80140的专栏

03-10

791

通过混合精度训练、梯度累积和激活检查点这三种优化策略，可以在有限的显存资源下高效地训练大模型。在大模型训练过程中，显存不足是一个常见的问题，严重限制了模型的规模和训练效率。梯度累积通过将多个小批次的梯度累加后统一更新，等效于增大批次大小，同时显存占用仅为单个小批次的量。：如果显存仍然不足，可以结合梯度累积技术，通过调整批次大小和梯度累积次数，进一步优化显存使用。：混合精度训练在减少显存占用和保持模型精度方面表现出色，是解决显存不足的首选策略之一。：合理选择检查点的数量和位置，平衡计算时间与显存节省的效果。

训练时GPU内存不足，方法及监控

Ppandaer的博客

07-05

917

神经网络学习----训练模型过程中的内存不足错误

小明的博客

02-06

5098

如果你的计算机GPU很差（比如我的就很差很差），在训练模型时你会发现刚开始训练正常，但后面就会报下图的错误。错误：numpy.core._exceptions.MemoryError: Unable to allocate 4.12 MiB for an array with shape (600, 600, 3) and data type float32 该错误是内存不足导致训练不能继续，我的bathsize==1了已经，但还是不行。真不知道这么垃圾的电脑怎么做神经网络。 ...

pytorch使用gpu内存不足怎么办

xiamu_CDA的博客

09-27

1197

当你在使用PyTorch进行深度学习模型训练时，是否遇到过GPU内存不足的情况？这个问题几乎是每个深度学习开发者都会面临的挑战。特别是在处理大规模数据集或构建复杂网络架构时，GPU内存不足可能会导致训练过程突然中断，甚至迫使我们不得不重新开始训练。面对这样的困境，如何有效地管理和优化GPU内存成为了每一个PyTorch用户都需要掌握的关键技能之一。

GPU显存不足怎么办？

qq_46147236的博客

12-18

3057

我是之前训练过模型，现在想重新训练，所以可以将之前保存的模型删除。用了13349/24564 Mib，只剩一半不到。在训练模型中由于GPU储存空间不足而中断。在代码中找到模型保存的位置，rm进行删除。1. 首先查看GPU内存信息。3. 再次查看GPU使用情况。2. 可以查看能清除的文件。

模型训练时CPU和GPU大幅度波动——可能是数据的读入拖后腿

jokerMingge的博客

09-19

585

在进行猫狗大战分类任务时，发现模型训练时CPU和GPU大幅度波动，且模型训练速度很慢。

深度学习模型训练时的内存优化介绍

qq_27390023的博客

01-09

1098

在训练深度学习模型时，内存消耗（包括显存和 RAM）往往是限制模型规模和数据量的重要因素。以下是一些常用的优化策略，分为。训练深度学习模型时，内存消耗（包括显存和 RAM）往往是限制模型规模和数据量的重要因素。以下是一些常用的优化策略，分为。这些方法可以根据具体场景进行组合应用，从而显著减少内存消耗，提高模型训练效率。

PyTorch大型模型支持(LMS)：解决GPU内存不足问题

资源摘要信息:"PyTorch中的大型模型支持（LMS）是为了解决在使用PyTorch框架进行深度学习模型训练时，因模型过大导致GPU内存不足，进而导致训练过程中断的问题。该技术由WML CE（Watson Machine Learning Community ...

深度学习训练模型时，GPU显存不够怎么办？

小白学视觉

03-21

1498

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨游客26024@知乎（已授权）来源丨https://www.zhihu.com/question/461811359/answer/2492822726编辑丨极市平台极市导读此篇博文以AlexNet为网络架构(其需要输入的图像大小为227x227x3)，CIFAR10为数据集，Adamw为梯度下降函数，学习率机制为Red...

Resnet代码运行时显示GPU内存不足

m0_69708695的博客

08-03

548

此问题常见于较多层的训练模型，此时需要改变batch-size的值，但需要注意的是batch-size的值仍需满足2的几次幂这一条件。可见结果与预想的大致相同。resnet18训练结果。resnet50训练结果。

如何处理GPU训练显存不足[memory isn&apos；t enough][alloc failed][out of memory]

Kenji_Shinji的博客

09-13

3866

输出tensor里会挂接device上的地址，方便print时同步device数据输出，在tensor析构的时候会释放device地址，因此如果每次step训练都把输出tensor保存起来的话，导致tensor不会析构，随着训练step的增加则会OOM。前面步骤确认都没有问题的话，则有可能是算子实现bug，这块需要对算子实现有一定的基础了解，可以排查下是否有新增算子，算子里是否有申请显存的操作导致显存泄漏。申请内存，导致随着训练step增加出现OOM，可以搜索代码查看算子的Launch中是否有调用。

训练PyTorch模型遇到显存不足的情况怎么办