大模型高效训练基础知识：梯度检查点（Gradient Checkpointing）

从流域到海域

已于 2023-07-08 11:00:29 修改

阅读量9.8k

点赞数 10

分类专栏：大语言模型文章标签：大语言模型语言模型自然语言处理深度学习梯度下降

于 2023-07-08 10:30:55 首次发布

本文链接：https://blog.csdn.net/Solo95/article/details/131606918

版权

大语言模型专栏收录该内容

26 篇文章

订阅专栏

文章介绍了在训练大模型时，由于参数量巨大，即使使用梯度累积也可能导致显存不足。梯度检查点作为一种平衡方法，选择性保存部分激活值，减少显存占用，同时在反向传播时重新计算丢弃的部分，以优化训练过程。在Transformer框架中启用梯度检查点只需简单设置参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

prerequiste: 大模型训练基础知识：梯度累积（Gradient Accumulationn）

梯度检查点（Gradient Checkpointing）

如今（2023年）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。

梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。

下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存，计算下一个节点完成后丢弃中间节点的激活值，反向传播时如果有保存下来的梯度就直接使用，如果没有就使用保存下来的前一个节点的梯度重新计算当前节点的梯度再使用。
在这里插入图片描述

Transformer框架开启梯度检查点非常简单，仅需在TrainingArguments中指定gradient checkpoint为True即可：

training_args = TrainingArguments(
    per_device_train_batch_size=1, gradient_accumulation_steps=4, gradient_checkpointing=True, **default_args
)

trainer = Trainer(model=model, args=training_args, train_dataset=ds)
result = trainer.train()