梯度剪裁

目录

1、梯度剪裁的原因

2、梯度裁剪的使用

2.1、固定阈值剪裁

2.2、根据参数的范数来衡量的

3、梯度裁剪的使用位置


梯度剪裁,一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸,那么就是学过了,会直接跳过最优解。例如:在反向传播中,假设第一层倒数乘以权重> 1,随着向前网络的传播的层数越多,梯度可能会越来越大。 (梯度消失相反)所以需要梯度裁剪,避免模型越过最优点。

下图,摘抄自:https://blog.csdn.net/guolindonggld/article/details/79547284

当然出现这种情况,其中一种解决方法是,将学习率α设小一点,如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种:

1)确定一个范围,如果参数的gradient超过了,直接裁剪;

2)根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值。下图说明原理:

优点:简单粗暴缺点:很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

    • parameters (Iterable[Variable]) – 一个基于变量的迭代器,会进行归一化;
    • max_norm (float or  int) – 梯度的最大范数;
    • norm_type(float or int) – 规定范数的类型,默认为L2。

Returns:参数的总体范数(作为单个向量来看)

下图,摘抄自:https://blog.csdn.net/guolindonggld/article/details/79547284

3、梯度裁剪的使用位置

在backward得到梯度之后,step()更新之前,使用梯度剪裁。从而完成计算完梯度后,进行裁剪,然后进行网络更新的过程。

import torch.nn as nn
 
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)
optimizer.step()

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jingbo1801

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值