梯度剪裁

最新推荐文章于 2025-03-29 23:50:47 发布

jingbo1801

最新推荐文章于 2025-03-29 23:50:47 发布

阅读量8.2k

点赞数 23

分类专栏：深度学习文章标签：网络神经网络 pytorch 梯度剪裁

本文链接：https://blog.csdn.net/weixin_34910922/article/details/114334644

版权

深度学习专栏收录该内容

21 篇文章

订阅专栏

梯度剪裁，一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸，那么就是学过了，会直接跳过最优解。例如：在反向传播中，假设第一层倒数乘以权重> 1，随着向前网络的传播的层数越多，梯度可能会越来越大。（梯度消失相反）所以需要梯度裁剪，避免模型越过最优点。

下图，摘抄自：https://blog.csdn.net/guolindonggld/article/details/79547284

当然出现这种情况，其中一种解决方法是，将学习率α设小一点，如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种：

1）确定一个范围，如果参数的gradient超过了，直接裁剪；

2）根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法，设定阈值，当梯度小于/大于阈值时，更新的梯度为阈值。下图说明原理：

优点：简单粗暴缺点：很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

- parameters (Iterable[Variable]) – 一个基于变量的迭代器，会进行归一化；
- max_norm (float or int) – 梯度的最大范数；
- norm_type(float or int) – 规定范数的类型，默认为L2。

Returns:参数的总体范数（作为单个向量来看）

下图，摘抄自：https://blog.csdn.net/guolindonggld/article/details/79547284

3、梯度裁剪的使用位置

在backward得到梯度之后，step()更新之前，使用梯度剪裁。从而完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

import torch.nn as nn
 
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)
optimizer.step()