数值稳定性---梯度消失and梯度爆炸

最新推荐文章于 2024-09-30 13:49:56 发布

菜鸡不叫

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量101

点赞数 1

分类专栏：动手学深度学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/h661975/article/details/133751620

版权

动手学深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

数值稳定性—梯度消失and梯度爆炸

初始化方案的选择在神经网络学习中起着举足轻重的作用，它对保持数值稳定性至关重要。此外，这些初始化方案的选择可以与非线性激活函数的选择有趣的结合在一起。我们选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。

梯度消失和梯度爆炸

梯度爆炸（gradient exploding）问题：参数更新过大，破坏了模型的稳定收敛；

梯度消失（gradient vanishing）问题：参数更新过小，在每次更新时几乎不会移动，导致模型无法学习

梯度消失和梯度爆炸两种情况产生的原因可以总结成2类原因：1.深层网络的结构；2.不合适的损失函数,比如Sigmoid函数。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下

具体原因：

1.神经网络角度

假设有一个四层的全连接网络，假设每层网络激活后的输出为 $f_i(x)$ ，其中i为第i层，x为第i层的输入，也就是第i-1层的输出，f是激活函数，那么， $f_{i+1}=f(f_i\times w_{i+1}+b_{i+1})$ 。我们知道反向传播算法基于梯度下降的思想，以目标负梯度方向对参数进行调整，参数的更新为 $w=w-\alpha\frac{\partial Loss}{\partial w}$ ，如果要更新第二隐藏层的权值信息，根据链式求导： $\Delta w_2=\frac{\partial Loss}{\partial w}=\frac{\partial f_4}{\partial f_3}\frac{\partial f_3}{\partial f_2}\frac{\partial f_2}{\partial w_2}$ ，

其实类似 $\frac{\partial f_4}{\partial f_3}$ 就是对激活函数进行求导。如果在此部分大于1，那么随着层数的增加，求出的梯度的更新将以指数形式增加，发生梯度爆炸。如果此部分小于1，那么随着层数的增加求出的梯度更新的信息会以指数形式衰减，发生梯度消失。

2.激活函数角度

sigmoid导数最大的时候也只有0.25，其余时候远小于0.25，因此如果每层的激活函数都为Logistic函数的话，很容易导致梯度消失问题，Tanh函数的导数峰值是1那也仅仅在取值为0的时候，其余时候都是小于1，因此通过链式求导之后，Tanh函数也很容易导致梯度消失。

import torch
from d2l import torch as d2l
x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

梯度消失、爆炸的解决方案

1.预训练和微调

预训练：无监督逐层训练，每次训练一层隐藏点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入。称为逐层预训练。在预训练完成后还要对整个网络进行微调。

2.梯度剪切、正则

梯度截断的方式有2种：

按值截断：在第t次迭代时，梯度为 $g_t$ ，给定一个区间[a,b]，如果一个参数的梯度小于a时，就将其设为a；如果大于b时，就将其设为b。

$g_t=max(min(g_t,b),a)$

按模截断：将梯度的模截断到一个给定的截断阈值b。如果 $g_t||^2≤b$ ，保持 $g_t$ 不变。如果 $||g_t||^2>b $，$ ||g_t||=\frac{b}{||g_t||}g_t$ ，b为超参数，往往一个小的阈值可以达到很好的效果。在训练循环神经网络时，按模截断是避免题都爆炸问题的有效方法。

另一种解决梯度爆炸的手段是采用权重正则化，较常见的是l1正则和l2正则，正则化是通过对网络权重做正则限制过拟合，仔细看正则项在损失函数的形式： $Loss=(y-W^Tx)^2+\lambda||W||^2$ ， $\lambda$ 是正则项系数，如果发生梯度爆炸，权值的范数会变得非常大，通过正则化项，可以部分限制梯度爆炸的发生。