Pytorch：torch.utils.checkpoint()

最新推荐文章于 2024-12-30 20:41:24 发布

北方骑马的萝卜

最新推荐文章于 2024-12-30 20:41:24 发布

阅读量1.5k

点赞数 2

分类专栏： Pytorch系列文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/weixin_42046845/article/details/136868030

版权

Pytorch系列专栏收录该内容

26 篇文章

订阅专栏

文章介绍了如何在PyTorch中使用torch.utils.checkpoint模块实现梯度检查点，通过在前向传播中保存关键激活值减少内存消耗，但会导致反向传播时的额外计算。通过实例展示了在模型中应用checkpoint函数以降低复杂网络的内存需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在PyTorch中，torch.utils.checkpoint 模块提供了实现梯度检查点（也称为checkpointing）的功能。这个技术主要用于训练时内存优化，它允许我们以计算时间为代价，减少训练深度网络时的内存占用。

原理

梯度检查点技术的基本原理是，在前向传播的过程中，并不保存所有的中间激活值。相反，它只保存一部分关键的激活值。在反向传播时，根据保留的激活值重新计算丢弃的中间激活值。因此内存的使用量会下降，但计算量会增加，因为需要重新计算一些前向传播的部分。

用法

torch.utils.checkpoint 中主要的函数是 checkpoint。checkpoint 函数可以用来封装模型的一部分或者一个复杂的运算，这部分会使用梯度检查点。它的一般用法是：

import torch
from torch.utils.checkpoint import checkpoint

# 定义一个前向传播函数
def custom_forward(*inputs):
    # 定义你的前向传播逻辑
    # 例如: x, y = inputs; result = x + y
    ...
    return result

# 在训练的前向传播过程中使用梯度检查点
model_output = checkpoint(custom_forward, *model_inputs)

在每次调用 custom_forward 函数时，它都会返回正常的前向传播结果。不过，checkpoint 函数会确保仅保留必须的激活值（即 custom_forward 的输出）。其他激活值不会保存在内存中，需要在反向传播时重新计算。

下面是一个具体的示例，演示了如何在一个简单的模型中使用 checkpoint 函数：

import torch
import torch.nn as nn
from torch.utils.checkpoint import checkpoint

class SomeModel(nn.Module):
    def __init__(self):
        super(SomeModel, self).__init__()
        self.conv1 = nn.Conv2d(1, 20, 5)
        self.conv2 = nn.Conv2d(20, 50, 5)

    def forward(self, x):
        # 使用checkpoint来减少第二层卷积的内存使用量
        x = self.conv1(x)
        x = checkpoint(self.conv2, x)
        return x

model = SomeModel()
input = torch.randn(1, 1, 28, 28)
output = model(input)
loss = output.sum()
loss.backward()

在上面的例子中，conv2的前向计算是通过 checkpoint 封装的，这意味着在 conv1 的输出和 conv2 的输出之间的激活值不会被完全存储。在反向传播时，这些丢失的激活值会通过再次前向传递 conv2 来重新计算。
使用梯度检查点技术可以在训练大型模型时减少显存的占用，但由于在反向传播时额外的重新计算，它会增加一些计算成本。