(Pytorch)梯度剪裁(clip_grad_value_与clip_grad_norm_)

本文详细介绍了梯度剪裁的概念及其实现方法,探讨了梯度爆炸问题,并提供了两种常用的梯度裁剪策略:固定阈值剪裁和基于范数的剪裁。此外,还给出了在PyTorch中的具体实现示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

注:原文为:https://blog.csdn.net/weixin_34910922/article/details/114334644。

目录

1、梯度剪裁的原因

2、梯度裁剪的使用

2.1、固定阈值剪裁

2.2、根据参数的范数来衡量的

3、梯度裁剪的使用位置


梯度剪裁,一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸,那么就是学过了,会直接跳过最优解。例如:在反向传播中,假设第一层倒数乘以权重> 1,随着向前网络的传播的层数越多,梯度可能会越来越大。 (梯度消失相反)所以需要梯度裁剪,避免模型越过最优点。

下图,摘抄自:https://blog.csdn.net/guolindonggld/article/details/79547284

当然出现这种情况,其中一种解决方法是,将学习率α设小一点,如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种:

1)确定一个范围,如果参数的gradient超过了,直接裁剪;

2)根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)
   
   

最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值。下图说明原理:

优点:简单粗暴缺点:很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)
   
   

这个函数是根据参数的范数来衡量的。

Parameters:

    • parameters (Iterable[Variable]) – 一个基于变量的迭代器,会进行归一化;
    • max_norm (float or  int) – 梯度的最大范数;
    • norm_type(float or int) – 规定范数的类型,默认为L2。

Returns:参数的总体范数(作为单个向量来看)

下图,摘抄自:https://blog.csdn.net/guolindonggld/article/details/79547284

3、梯度裁剪的使用位置

在backward得到梯度之后,step()更新之前,使用梯度剪裁。从而完成计算完梯度后,进行裁剪,然后进行网络更新的过程。

import torch.nn as nn
 
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)#使用第二种裁剪方式。
optimizer.step()

评论:第二种梯度裁剪方式在范数超标的时候,乘以了一个小于1的系数,这个系数的确很像学习率,学习率也是乘以梯度,只是说学习率可能是随着过程在变化,而则这里的小于1的系数会盯着梯度而变换。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值