前言
LSTM由于其结构特点,能够学习长的依赖关系,被广泛应用到深度学习的各个领域,作者最近使用LSTM实现了两个小的工程应用场景,对LSTM的结构以及特点进行了学习整理,希望对大家理解这种结构有帮助。
一、LSTM是什么?
LSTM全写为Long short-term memory(长短期记忆),是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。它由 H o c h r e i t e r Hochreiter Hochreiter & S c h m i d h u b e r Schmidhuber Schmidhuber (1997)提出,并被 A l e x G r a v e s Alex Graves AlexGraves进行了改良和推广,现在在机器学习领域被广泛使用。简单来说,LSTM相比普通的RNN,能够在更长的序列中有更好的表现,它能通过门的控制保留很久之前的特征,这是它最大的特点。
二、LSTM的网络结构及原理
1.LSTM的网络结构
LSTM是一种特殊的RNN(循环神经网络),先看RNN的结构特点:
LSTM的网络结构:
可以发现,相比RNN只有一个传递状态 h t h^t ht ,LSTM有两个传输状态,一个 c t c^t ct (cell state),和一个 h t h^t ht (hidden state)。通常输出的 c t c^t ct是上一个状态传过来的加上一些数值,而 h t h^t ht则在不同节点下往往会有很大的区别。
2.LSTM的结构原理
下图是 LSTM 的计算过程,输入一共有四个: Z Z Z、输入门 Z i Z_i Zi、输出门 Z