首先看了一个很不错的介绍,解释浅显易懂,一篇英文博客的译本
并有一篇对此的例子介绍
接下来就是论文了
1997年首次由Hochreiter&Schmidhuber(1997)提出 LONG SHORT-TERM MEMOR
2014年的改动较大的变体,Gated Recurrent Unit (GRU),这是由 Cho, et al. (2014) 提出。它将忘记门和输入门合成了一个单一的 更新门,第一感觉就是 这样舒服多了
更多LSTM的论文:
https://www.researchgate.net/publication/12292425_Learning_to_Forget_Continual_Prediction_with_LSTM
https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks