一:梯度消失梯度爆炸:
- 梯度消失:
- 当权重初始过小或使用易饱和的神经元的时候(signmoid,tanh)例如:signmoid在y=0、1的时候梯度接近于0,而无法更新参数时神经网络在反向传播的时候也会呈现指数倍的缩小,产生消失现象
- 梯度爆炸:
- 当初始权重过大时候,梯度神经网络在反向传播的时候也会呈现指数倍的放大,产生爆炸效果
二:解决梯度消失和梯度爆炸的经验:
- 替换易训练神经元 Signmoid--->Leaky ReLu tanh---->ReLu
- 改进梯度优化算法:使用adam等算法
- 使用batch normalization