数值稳定性
分为梯度爆炸和梯度消失两类,如果网络的层数比较多,就有可能出现梯度爆炸或者梯度消失。
生物神经元似乎是用 Sigmoid(S 型)激活函数活动的,因此人们在很长一段时间内坚持 Sigmoid 函数。但事实证明,Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。当神经网络有很多层,每个隐藏层都使用Sigmoid函数作为激励函数时,很容易引起梯度消失的问题
因为sigmoid有一个缺点:当x较大或较小时,导数接近0;并且Sigmoid函数导数的最大值是0.25,都是小于1的值。而我们初始化的网络权值通常都小于1,因此,当层数增多时,小于0的值不断相乘,最后就导致梯度消失的情况出现。同理,梯度爆炸的问题也就很明显了,就是当权值过大时,导致 ,最后大于1的值不断相乘,就会产生梯度爆炸。
梯度爆炸的问题:
可能最后计算出来的梯度的值太大从而超过了值域(对应16位浮点最为严重)
对于学习率敏感:
如果学习率太大,即有一个较大的参数,从而使得梯度非常大。
如果降低学习率,就有可能导致训练效果不明显。
所以我们需要在训练的时候随时调整学习率。
梯度消失的问题:
多次之后可能梯度值直接变为0
不管如何选择学习率训练都没有进展
只能在很浅的网络部分有作用,仅仅只是在顶部层训练的很好,无法使得神经网络更深。
让训练更加稳定(梯度不要太大或者太小):让梯度在一个合理范围内。例如[1e-6,1e3]
让乘法变成加法(ResNet,LSTM)
梯度归一化,或者梯度剪裁。
模型初始化和激活函数
参考:
https://blog.csdn.net/junjun150013652/article/details/81274958