上一问中,我们回答了为什么要避免梯度爆炸/消失现象。现在我们来聊聊如何避免梯度消失问题。
上一节,我们表示梯度消失现象处于loss-w图中的bad位置。那么为了解决梯度消失问题,我们需要让参数远离bad位置。
预防:避免梯度消失出现。
(1)损失函数本身
可以通过巧妙设计使得损失-权重图中这样的bad位置比较少出现。
网络模型
LSTM、GRU激活函数
ReLU
(2)让参数远离bad位置
在损失-权重图中bad位置固定的情况下,需要让参数初始值及更新路径远离bad位置。
- 参数初始化