前篇文章我们讲过RNN网络,RNN网络可以理解当前任务以前的信息,但是却不能长期记忆,比如在经过4-5个神经元网络的计算之后,包留之前信息的权重就变得很小。之前信息对当前信息的影响就变得很小。这个时候就可以用到LSTM(Long Short Term)网络,相比于RNN网络,他可以更好的记住很久之前我们需要的信息。
LSTM 由Hochreiter & Schmidhuber (1997)提出,并在近期被Alex Graves进行了改良和推广。在很多问题,LSTM 都取得相当巨大的成功,并得到了广泛的使用。LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为,而非需要付出很大代价才能获得的能力!
所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中,这个重复的模块只有一个非常简单的结构,例如一个tanh
层。
所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中,这个重复的模块只有一个非常简单的结构,例如一个tanh
层。
LSTM 同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于 单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。