（Pytorch）梯度剪裁（clip_grad_value_与clip_grad_norm_）

音程

已于 2022-12-16 15:40:23 修改

阅读量1.1w

点赞数 9

分类专栏： Pytorch深入理解与实战文章标签：深度学习人工智能神经网络

于 2022-12-16 15:39:08 首次发布

原文链接：https://blog.csdn.net/weixin_34910922/article/details/114334644

版权

Pytorch深入理解与实战专栏收录该内容

73 篇文章

订阅专栏

本文详细介绍了梯度剪裁的概念及其实现方法，探讨了梯度爆炸问题，并提供了两种常用的梯度裁剪策略：固定阈值剪裁和基于范数的剪裁。此外，还给出了在PyTorch中的具体实现示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：原文为：https://blog.csdn.net/weixin_34910922/article/details/114334644。

梯度剪裁，一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸，那么就是学过了，会直接跳过最优解。例如：在反向传播中，假设第一层倒数乘以权重> 1，随着向前网络的传播的层数越多，梯度可能会越来越大。（梯度消失相反）所以需要梯度裁剪，避免模型越过最优点。

下图，摘抄自：https://blog.csdn.net/guolindonggld/article/details/79547284

当然出现这种情况，其中一种解决方法是，将学习率α设小一点，如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种：

1）确定一个范围，如果参数的gradient超过了，直接裁剪；

2）根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法，设定阈值，当梯度小于/大于阈值时，更新的梯度为阈值。下图说明原理：

优点：简单粗暴缺点：很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

- parameters (Iterable[Variable]) – 一个基于变量的迭代器，会进行归一化；
- max_norm (float or int) – 梯度的最大范数；
- norm_type(float or int) – 规定范数的类型，默认为L2。

Returns:参数的总体范数（作为单个向量来看）

下图，摘抄自：https://blog.csdn.net/guolindonggld/article/details/79547284

3、梯度裁剪的使用位置

在backward得到梯度之后，step()更新之前，使用梯度剪裁。从而完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

import torch.nn as nn
 
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)#使用第二种裁剪方式。
optimizer.step()

评论：第二种梯度裁剪方式在范数超标的时候，乘以了一个小于1的系数，这个系数的确很像学习率，学习率也是乘以梯度，只是说学习率可能是随着过程在变化，而则这里的小于1的系数会盯着梯度而变换。