gradient_checkpointing

最新推荐文章于 2025-04-24 20:39:08 发布

andeyeluguo

最新推荐文章于 2025-04-24 20:39:08 发布

阅读量2.3k

点赞数 10

分类专栏：笔记文章标签：人工智能

本文链接：https://blog.csdn.net/andeyeluguo/article/details/135490734

版权

笔记专栏收录该内容

8 篇文章

订阅专栏

点评：本质是减少内存消耗的一种方式，以时间或者计算换内存

gradient_checkpointing（梯度检查点）是一种用于减少深度学习模型中内存消耗的技术。在训练深度神经网络时，反向传播算法需要在前向传播和反向传播之间存储中间计算结果，以便计算梯度并更新模型参数。这些中间结果的存储会占用大量的内存，特别是当模型非常深或参数量很大时。

梯度检查点技术通过在前向传播期间临时丢弃一些中间结果，仅保留必要的信息，以减少内存使用量。在反向传播过程中，只需要重新计算被丢弃的中间结果，而不需要存储所有的中间结果，从而节省内存空间。

实现梯度检查点的一种常见方法是将某些层或操作标记为检查点。在前向传播期间，被标记为检查点的层将计算并缓存中间结果。然后，在反向传播过程中，这些层将重新计算其所需的中间结果，以便计算梯度。

以下是一种简单的实现梯度检查点的伪代码：

```
for input, target in training_data:
    # Forward pass
    x1 = layer1.forward(input)
    x2 = layer2.forward(x1)
    x3 = checkpoint(layer3, x2) # Apply checkpointing on layer3
    x4 = layer4.forward(x3)
    output = layer5.forward(x4)

    # Compute loss and gradient
    loss = compute_loss(output, target)
    gradient = compute_gradient(loss)

    # Backward pass
    grad_x4 = layer5.backward(gradient)
    grad_x3 = layer4.backward(grad_x4)
    grad_x2 = checkpoint(layer3, x2, backward=True) # Apply checkpointing on layer3 during backward pass
    grad_x1 = layer2.backward(grad_x2)
    grad_input = layer1.backward(grad_x1)

    # Update model parameters
    update_parameters(layer1)
    update_parameters(layer2)
    update_parameters(layer3)
    update_parameters(layer4)
    update_parameters(layer5)
```