问题一:LSTM如何避免梯度弥散和梯度爆炸
LSTM只能避免RNN的梯度消失(gradient vanishing);梯度膨胀(gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如果梯度的范数大于某个给定值,将梯度同比收缩)。下面简单说说LSTM如何避免梯度消失.
RNN的本质是在网络内部维护了一个状态


- 传统的RNN总是用“覆写”的方式计算状态:
,其中
表示仿射变换外面在套一个Sigmoid,
LSTM只能避免RNN的梯度消失(gradient vanishing);梯度膨胀(gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如果梯度的范数大于某个给定值,将梯度同比收缩)。下面简单说说LSTM如何避免梯度消失.
RNN的本质是在网络内部维护了一个状态