LSTM结构更为复杂,在RNN中,将过去对的输出和当前的输入concat到一起,通过tanh来控制二者对的输出,只考虑最近时刻的状态。而在LSTM中为了能记住长期的状态,增加了一条路上输出和一路输入。LSTM使为了解决RNN中梯度消失问题所提出的,LSTM只能必变RNN的梯度小时(gradient vanishing),但是不能对抗梯度爆炸(exploding gradient)