梯度剪裁: torch.nn.utils.clip_grad_norm_()

本文链接：https://blog.csdn.net/Mikeyboi/article/details/119522689

本文详细解析了PyTorch中的梯度剪裁方法torch.nn.utils.clip_grad_norm_()，包括原理和使用方式。通过限制梯度的范数，防止深度学习模型训练过程中的梯度爆炸问题。该方法首先计算所有网络参数梯度的范数，然后根据设定的最大范数上限进行梯度裁剪，确保范数不超过指定值，以实现梯度的稳定控制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

当神经网络深度逐渐增加，网络参数量增多的时候，反向传播过程中链式法则里的梯度连乘项数便会增多，更易引起梯度消失和梯度爆炸。对于梯度爆炸问题，解决方法之一便是进行梯度剪裁，即设置一个梯度大小的上限。本文介绍了pytorch中梯度剪裁方法的原理和使用方法。

一、原理

注：为了防止混淆，本文对神经网络中的参数称为“网络参数”，其他程序相关参数成为“参数”。

pytorch中梯度剪裁方法为 torch.nn.utils.clip_grad_norm_(parameters, max_norm, norm_type=2)¹。三个参数：

parameters：希望实施梯度裁剪的可迭代网络参数
max_norm：该组网络参数梯度的范数上限
norm_type：范数类型

官方对该方法的描述为：

"Clips gradient norm of an iterable of parameters. The norm is computed over all gradients together, as if they were concatenated into a single vector. Gradients are modified in-place."

“对一组可迭代(网络)参数的梯度范数进行裁剪。效果如同将所有参数连接成单个向量来计算范数。梯度原位修改。”

我们来逐段分析其实现代码：

def clip_grad_norm_(parameters, max_norm, norm_type=2):
    if isinstance(parameters, torch.Tensor):
        parameters = [parameters]
    parameters = list(filter(lambda p: p.grad is not None, parameters))
    max_norm = float(max_norm)
    norm_type = float(norm_type)

该部分处理了传入的三个参数。首先将parameters中的非空网络参数存入一个列表，然后将max_norm和norm_type类型强制为浮点数。

    if norm_type == inf:
        total_norm = max(p.grad.data.abs().max() for p in parameters)

该句对无穷范数进行了单独计算，即取所有网络参数梯度范数中的最大值，定义为total_norm：
${total\_norm}^{\infty}=\max_{pi\in {P}}|grad(p_i)|$

    else:
        total_norm = 0
        for p in parameters:
            param_norm = p.grad.data.norm(norm_type)
            total_norm += param_norm.item() ** norm_type
        total_norm = total_norm ** (1. / norm_type)

对于其他范数，我们计算所有网络参数梯度范数之和，再归一化，即等价于把所有网络参数放入一个向量，再对向量计算范数。将结果定义为total_norm：
${total\_norm}^{norm\_type}=\{\sum_{pi\in {P}}[grad(p_i)]^{norm\_type}\}^{\frac{1}{norm\_type}}$