1.7.数值稳定性

最新推荐文章于 2024-08-18 23:37:00 发布

lsslcj

最新推荐文章于 2024-08-18 23:37:00 发布

阅读量858

点赞数 26

分类专栏： ai相关文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/shiki217_/article/details/140533392

版权

ai相关专栏收录该内容

48 篇文章 1 订阅

订阅专栏

数值稳定性

神经网络的梯度

假设一个有d层的神经网络,对于任意的t层和最终输出y，有：
$h^t = f_t(h^{t-1}),y=l\circ f_d\circ \dots \circ f_1(x)$
计算算是 $l$ 关于参数 $W_t$ 的梯度：
$\frac{\partial l}{\partial W^t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}\cdots \frac{\partial h^{t+1}}{\partial h^t}\frac{\partial h^t}{\partial W^t}$
中间有 $d - t$ 次矩阵乘法，做了太多次乘法，就会导致数据稳定性的一些问题：

梯度爆炸： $1.5^{100} =4 \times 10^{17}$
梯度消失： $0.8^{100}=2\times 10^{-10}$

例子：MLP

为了简单省略了偏移，对于第t层：
在这里插入图片描述

梯度爆炸

使用Relu作为激活函数：
在这里插入图片描述

则矩阵中的元素要么是1要么是0，最终 $\Pi ^{d-1}_{i=t}\frac{\partial h^{i+1}}{\partial h^i}$ 的值的一些元素会来自 $\Pi^{d-1}_{i=t}(W^i)^T$ ,如果 $d - t$ 很大，那么值将会很大。

梯度爆炸的问题

值超出值域(infinity)

16位浮点数尤为严重(数值区间6e-5 - 6e-4)
对学习率敏感

如果学习率太大 $\rightarrow$ 大参数值 $\rightarrow$ 更大的梯度

如果学习率太小 $\rightarrow$ 训练无进展

我们可能需要在训练过程不断调整学习率

梯度消失

使用sigmoid作为激活函数

$sigmoid(x)=\frac{1}{1+exp(-x)}\ \ \sigma'=\sigma(x)(1-\sigma(x))$
! 在这里插入图片描述

当输入值很大，sigmoid的梯度很小，则
$\Pi ^{d-1}_{i=t}\frac{\partial h^{i+1}}{\partial h^i}=\Pi^{d-1}_{i=t} diag(\sigma '(W^i h^{i-1}))(W^i)^T$
的元素值是d-t个小数值得乘积，最终梯度会很小很小。

梯度消失得问题

梯度值变成0

16位浮点数尤为严重
训练没有进展，学习率无用了
对于底层影响很大，仅顶部层训练得比较好，无法让神经网络更深，限制了神经网络的大小

当数值过大或者过小时会导致数值问题，常发生在深度模型中，因为其会对n个数累乘

训练更稳定

稳定，即让梯度值在合理的范围内，比如[1e-6,1e3]

方法：

将乘法变为加法：ResNet,LSTM
归一化：梯度归一化，梯度裁剪
合理的权重初始和激活函数

合理的初始值和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看作随机变量，让它们的均值和方差都保持一致。

在这里插入图片描述

a和b都是常数。

权重初始化

我们希望在合理值区间里随机初始参数，因为训练开始的时候更容易有数值不稳定，远离最优解的地方，其损失函数表面可能很复杂，最优解附近表面会比较平。

使用 $N (0, 0.01)$ 来初始可能对小网络没问题，但不能保证深度神经网络。

例子：MLP

假设

$w^t_{i,j}$ (第t层的第i行第j列)是i.i.d，那么 $E[w^t_{i,j}] = 0,Var[w^t_{i,j}]=\gamma_t$

独立同分布（Independent Identically Distribution）在概率统计理论中，指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。
$h^{t-1}_t$ 独立于 $w_{i,j}^t$

假设没有激活函数 $h^t= W^th^{t-1}，W^t\in \R^{n_t\times n_{t-1}}$
$E[h^t_i]=E[\sum_jw^t_{i,j} h^{t-1}_j]=\sum_j E[w^t_{i,j}]E[h^{t-1}_j]=0$
独立的变量，则有 $E [x y] = E [x] E [y]$