数值稳定型
当神经网络很深的实现,数值非常容易不稳定。
- t 表示层,ht 表示第 t 隐藏层的输出。
- ht-1 经过 ft 得到 ht隐藏层的输出。
- ft包含了线性计算和激活函数两步。
y = ℓ ∘ f d ∘ … ∘ f 1 ( x ) y=\ell \circ f_d \circ \ldots \circ f_1(\mathbf{x}) y=ℓ∘fd∘…∘f1(x)
- 这里的y不是预测,y包含了损失函数
- 向量关于向量的导数是一个矩阵,所以 梯度 是d - t次的矩阵乘法
- 如果说梯度是大于1的值,且神经网络足够深,就会导致梯度计算出来的结果过大,超出计算范围。
- 如果说梯度是介于0 - 1之间的数,当层数足够大是时候,梯度计算的结果过小,近于0。
梯度爆炸与消失
- 如果梯度过小,那么不论学习率多大,对结果都没有影响。
梯度的反向传播是从顶层开始,一开始是正常的,梯度是乘法,越往深层,梯度越来越小,底部拿到是数就很小,如果底部的层很小,那么不管怎么做学习率,效果提升都是有限的。顶部的层训练很好,但底部的层没效果,本质上与浅层神经网络没有区别。
数值稳定
-
梯度归一化:如把梯度变为均值为0,方差为1的数。就是不管梯度多大,都拉回来变小。
-
梯度裁剪:如果梯度超出某个阈值,就将其设定为当前阈值,将梯度强行限制在某个范围内。
如何合理初始化权重和使用激活函数
hi t表示第t层第i个元素是输出。E表示期望,Var表示方差。
在怎样的条件下能够使得正反向的期望为0,正向传播方差为a,反向传播方差为b?
QA:
- nan的产生一般是除0,inf的产生一般是过大。解决方法通常是调小学习率和合理初始化权重,选择激活函数。
- ReLU的作用是破坏线性联系。
- sigmoid可引起梯度消失,但梯度消失不一定是因为sigmoid,ReLU用来替代sigmoid也降低梯度消失概率。
- 均值为0,方差为0.01。