大模型高效训练基础知识：梯度累积（Gradient Accumulationn）

从流域到海域

已于 2023-07-08 11:00:00 修改

阅读量1.9k

点赞数 2

分类专栏：大语言模型文章标签：大语言模型语言模型梯度更新梯度累积深度学习

于 2023-07-08 01:36:31 首次发布

本文链接：https://blog.csdn.net/Solo95/article/details/131606817

版权

大语言模型专栏收录该内容

26 篇文章

订阅专栏

梯度累积是一种在有限GPU内存条件下处理大参数量的方法，它通过多次小批次的梯度计算和累加，然后一次性更新模型参数。这种方法牺牲了训练速度来换取空间效率，常用于Transformer等复杂模型的训练。在Transformers框架中，可以通过设置`gradient_accumulation_steps`来启用此功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度累积

梯度累积（Gradient Accumulation）的基本思想是将一次性的整批参数更新的梯度计算变为以一小步一小步的方式进行（如下图），具体而言该方法以小批次的方式进行模型前向传播和反向传播，过程中迭代计算多个小批次梯度并累加，当累积到足够多的梯度时，执行模型的优化步骤更新参数。这也是一种典型的时间换空间的做法，即我们可以实现在有限的GPU内存上更新大量参数，不过额外添加的小批次前向传播和后向传播会使得训练速度变慢一些。
在这里插入图片描述
参数更新方式可以使用随机梯度下降（Stochastic Gradient Descent）为例进行说明：

使用global batch（即全批次）训练时，参数更新公式为：
$V_t=V_{t-1}-l_{r}*grad$
简化公式， $V$ 表示参数集， $l_r$ 表示学习率， $g r a d$ 表示全批次梯度。

使用梯度累积的mini-batch（即小批次）训练时，参数更新公式为：
$V_t=V_{t-1}-l_{r}*\sum_{i=0}^{N}grad_i$
$grad_i$ 表示第 $i$ 个批次反向传播时计算的梯度。

Transformers框架中开启梯度累积非常简单，仅需在TrainingArguments内指定累积步长即可：

training_args = TrainingArguments(
    per_device_train_batch_size=1, gradient_accumulation_steps=4, gradient_checkpointing=True, **default_args
)

trainer = Trainer(model=model, args=training_args, train_dataset=ds)
result = trainer.train()