梯度爆炸(exploding gradient) :
- 梯度裁剪 (设置阈值 >=2的设置为2)
梯度消失 (vanishing gradient) - 初始化改变(激活函数改变为relu,tanh)(identity initialization)
- LSTM(后面会讲)链式法则×变+,有相加的部分,避免梯度消失
- 残差网络 (Residual Networks) (跳过一些,走过的神经元少了)
- 批处理归一化(Batch Normalization)
梯度爆炸(exploding gradient) :