梯度累加(Gradient Accumulation)

最新推荐文章于 2024-05-27 16:25:13 发布

SUN_SU3

最新推荐文章于 2024-05-27 16:25:13 发布

阅读量3k

点赞数 2

分类专栏：模型文章标签： pytorch 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013546508/article/details/121157559

版权

由于显存限制，通常在预训练大型深度学习模型时会设置较小的batch-size，但小batch-size可能影响模型收敛。为解决此问题，可以采用梯度累加技术。该技术通过积累多个小batch的梯度后再进行一次参数更新，从而达到增大虚拟batch-size的效果，提高模型训练的稳定性。本文主要介绍如何在PyTorch中应用梯度累加。

摘要由CSDN通过智能技术生成

受显存限制，运行一些预训练的large模型时，batch-size往往设置的比较小1-4，否则就会‘CUDA out of memory’，但一般batch-size越大(一定范围内)模型收敛越稳定效果相对越好，这时梯度累加(Gradient Accumulation)就可以发挥作用了，梯度累加可以先累加多个batch的梯度再进行一次参数更新，相当于增大了batch-size，这里记录一下梯度累计的使用(Pytorch)

# 截取脚本片段
step = 0
accum_step = 10
for epoch in range(epochs):
    print(f"epochs:

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
梯度累加(Gradient Accumulation)

受显存限制，运行一些预训练的large模型时，batch-size往往设置的比较小1-4，否则就会‘CUDA out of memory’，但一般batch-size越大(一定范围内)模型收敛越稳定效果相对越好，这时梯度累加(Gradient Accumulation)就可以发挥作用了，梯度累加可以先累加多个batch的梯度再进行一次参数更新，相当于增大了batch-size，这里记录一下梯度累计的使用(Pytorch)# 截取脚本片段step = 0accum_step = 10for epoch
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。