梯度消失与梯度爆炸
出现原因
梯度消失和梯度爆炸是因为在神经网络中,由于网络层数增多,导致求取的梯度趋于
∞
\infty
∞(梯度爆炸)和趋于 0(梯度消失)的情况。
参考
解决梯度消失与梯度爆炸的方法
- 梯度剪切:防止梯度爆炸,即当梯度超过一定阈值则将梯度限制在这个阈值范围内
- 正则化项:
L o s s = ( y − W T x ) 2 + α ∣ ∣ w ∣ ∣ 2 Loss=(y-W^Tx)^2+\alpha||w||^2 Loss=(y−WTx)2+α∣∣w∣∣2
其中, α \alpha α是正则项系数,作用是防止w过大或者过小 - 激活函数改用ReLU
- 残差神经网络(跨层连接)
- LSTM:每一层的单元都可以选择遗忘和记忆的状态