目录
梯度消失
梯度消失:前面隐藏层的学习速度显著低于后面隐藏层
梯度消失的根本原因:
梯度爆炸
梯度爆炸的根本原因:当,前面的网络层比后面的网络层梯度变化更快。
权重矩阵的退化导致模型的有效自由度减少
参数空间中学习的退化速度减慢,导致减少了模型的有效维数;有效自由度减少,随着模型深度的增加,退化速度会越来越快,网络会变得敏感。
学习率:大:训练速度加快,精度降低;
小:精度增加,训练速度减慢
退化学习率:刚开始使用大的学习率加快训练速度,后减小学习率提高精度
解决梯度消失的方法
梯度消失和梯度爆炸问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的连乘效应。
1.用ReLU、Leaky-ReLU、P-ReLU、R-ReLU、Maxout等替代sigmoid函数。
2.用Batch Normalization。
3.LSTM的结构设计也可以改善RNN中的梯度消失问题。
解决梯度爆炸的方法
1、预训练+微调
2、梯度剪切、权重正则
3、使用不同的激活函数
4、使用残差结构,为模型增加了一个shortcut,这种shortcut可以动态的调整模型的复杂度,类似于LSTM中的门结构。
5、用Batch Normalization。
最后如果转载,麻烦留个本文的链接,因为如果读者或我自己发现文章有错误,我会在这里更正,留个本文的链接,防止我暂时的疏漏耽误了他人宝贵的时间。