问题一:LSTM如何避免梯度弥散和梯度爆炸
LSTM只能避免RNN的梯度消失(gradient vanishing);梯度膨胀(gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如果梯度的范数大于某个给定值,将梯度同比收缩)。下面简单说说LSTM如何避免梯度消失.
RNN的本质是在网络内部维护了一个状态,其中表示时间且可递归计算。- 传统的RNN总是用“覆写”的方式计算状态:,其中
LSTM只能避免RNN的梯度消失(gradient vanishing);梯度膨胀(gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如果梯度的范数大于某个给定值,将梯度同比收缩)。下面简单说说LSTM如何避免梯度消失.
RNN的本质是在网络内部维护了一个状态,其中表示时间且可递归计算。