基础知识(梯度爆炸和梯度消失):
梯度爆炸:可以用这个图直观呈现,也就是梯度变化为正无穷或者负无穷(个人理解)。
梯度消失: 简单来说就是梯度接近0,神经网络的权重不再更新,继续训练学习不到图像的特征了。
解决梯度消失和爆炸的方法:
1.网路结构的改变,如RNN通过梯度截断来处理,LSTM通过门控制系统来解决梯度爆炸问题
2. 激活函数sigmod函数改为RULE函数,避免梯度消失
3. 通过加正则约束(BN可以看作是一种正则)来解决梯度爆炸
BN(batch norm)的原理:
将样本规范化至0均值,1方差