深度学习-----------数值稳定性

Einstein·Jun

已于 2024-08-04 17:26:42 修改

阅读量927

点赞数 9

分类专栏：动手学深度学习文章标签：深度学习人工智能

于 2024-08-04 17:26:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_e_1/article/details/140892166

版权

动手学深度学习专栏收录该内容

41 篇文章

订阅专栏

在这里插入图片描述

神经网络的梯度

考虑如下有d层的神经网络，输入x和输出y的深层网络。每一层t由线性变换 $f_1$ 定义，该变换的参数为权重 $w^{(t)}$ ,其隐藏变量是 $h^{(t)}$ (令 $h^{(0)}$ =x)。我们的网络可以表示为：

在这里插入图片描述
层：记作t
l：损失函数（即预测的要进行优化的目标函数）
y：y不是预测，还包括损失函数

计算损失l关于参数 $w^{(t)}$ 的梯度。

在这里插入图片描述

数值稳定性的常见两个问题

在这里插入图片描述

例子：MLP

加入如下MLP（为了简单省略了偏移）（即MLP：多层感知机的模型）

在这里插入图片描述
首先对激活函数进行求导，它是一个按元素的一个函数，所以对它的求导就变成一个diag(对角)矩阵

在这里插入图片描述

梯度爆炸

使用ReLU作为激活函数
在这里插入图片描述

通过（元素为0和1的）对角矩阵与相乘，那么意味着把某一列留住了，要么把它全变为0。

在这里插入图片描述是指那些没有变成0的那一列的乘法

如果d-t很大，值将会很大。（意思是网络比较深的话，那么它的值会比较大，因为里面全是w的元素，假设每个w的元素都是大于1的话，而且层数比较大的情况下，那么就会有非常大的值。）

梯度爆炸的问题

值超出值域(infinity)
对于16位浮点数尤为严重（数值区间为(6e-5，6e-4)）

对学习率敏感
如果学习率太大→大参数值→更大的梯度
（如果学习率太大，那么就会带来比较大的参数值，因为每一步走的比较远，那么权重会变的比较大，权重变大对应的梯度更大（这里的梯度即：权重的乘法））在这里插入图片描述

如果学习率太小→训练无进展
我们可能需要在训练过程不断调整学习率。

梯度消失

使用sigmoid作为激活函数
在这里插入图片描述

当激活函数的输入稍微大一点时，它的导数就变为接近0，连续n个接近0的数相乘，最后的梯度就接近0，梯度就消失了。

梯度消失的问题

梯度值变成0
对16位浮点数尤为严重

训练没有进展
不管如何选择学习率
（梯度为0，不管学习率如何变都不会有进展，权重=学习率*梯度）

对于比较深的网络的时候，对于底层尤为严重
仅仅顶部层训练的较好
无法让神经网络更深

总结

当数值过大或者过小时会导致数值问题。
常发生在深度模型中，因为其会对n个数累乘。

模型初始化和激活函数

让训练更加稳定

在这里插入图片描述
目标：让梯度值在合理的范围内
    例如：[1e-6,1e3]
将乘法变加法
    ResNet，LSTM
归一化
    梯度归一化，梯度裁剪
合理的权重初始和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让它们的均值和方差都保持一致

在这里插入图片描述

权重初始化

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
远离最优解的地方损失函数表面可能很复杂（比较陡，说明梯度越大）
最优解附近表面会比较平
使用N(0,0.01)来初始可能对小网络没问题，但不能保证深度神经网络。

在这里插入图片描述

正向均值和方差

例子：MLP
假设
在这里插入图片描述（即：权重是一个独立同分布(Independent identical distribution)，代表的意思是权重的第t层第i行第j列，那么均值等于0，方差等于 $γ_t$ ,t为其层数。
t-1层的输入独立于当前的权重。
）

正向均值

在这里插入图片描述

正向方差

方差=平方的期望-期望的平方
在这里插入图片描述

方差= 在这里插入图片描述平方项的均值-均值的平方。
其中为0.

在这里插入图片描述全独立，每个的均值为0，

在这里插入图片描述和的均值为0，这两项就等价于其方差。
题设：
其中对j进行求和，j的取值就是[0,t-1]
$n_{t-1}$ 是第t-1层的维度数

反向均值和方差

在这里插入图片描述

Xavier初始

在这里插入图片描述

正向和反向的均值和方差（书上）

正向均值和方差

假设：

在这里插入图片描述

与相互独立
在这种情况下，我们可以按如下方式计算 o_i 的平均值和方差：

保持方差不变（）的一种方法是设置

反向均值和方差

假设：
在这里插入图片描述

可以看到，除非在这里插入图片描述
否则梯度的方差可能会增大，其中是该层的输出的数量。这使得我们进退两难：我们不可能同时满足这两个条件。相反，我们只需满足：

在这里插入图片描述或等价于

通常，Xavier初始化从均值为零，方差在这里插入图片描述的高斯分布中采样权重。
我们也可以将其改为选择从均匀分布中抽取权重时的方差。注意均匀分布的方差为。将代入到的条件中，将得到初始化值域：

在这里插入图片描述

从线性的激活函数的角度提升数值稳定性

正向

在这里插入图片描述

反向

在这里插入图片描述

由以上推理可知：从激活函数的角度保持每层的输入和输出的均值和方差不变，必须使得激活函数在这里插入图片描述

检查常用激活函数

在这里插入图片描述

总结

合理的权重初始值和激活函数的选取可以提升数值稳定性。

问题

①nan（not a number）和inf是怎么产生的以及怎么解决吗？
inf是太大了，权重初始没更新
nan是除0产生的。
解决：合理初始化权重、学习率、激活函数

②在训练的过程中，如果网络层的输出层特征元素的值突然变成nan了，是发生了梯度爆炸了吗？还是有什么其它可能的原因？
对，一般来说nan就是梯度太大造成的，所以一般是梯度的问题

③梯度消失可以说是因为使用了sigmoid激活函数引起的对吗？所以我们可以用ReLU替换sigmoid解决梯度消失的问题吗？
不对，梯度消失有很多可能因素，不一定是sigmoid引起的。ReLU替换sigmoid可以让梯度消失的概率减少。

④为什么乘法变加法可以让训练更稳定？
100个1.5乘在一起梯度会炸，但100个1.5相加没问题。

⑤使用resnet为什么还会出现数值稳定性问题？
只能缓解问题不能解决问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。