长短期记忆(Long Short-Term Memory,LSTM)网络是循环神经网络的一个变体,可以有效地解决简单循环神经网络的梯度爆炸或消失问题。
门控循环单元(gated recurrent unit,GRU)是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流行的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题.
炫云:循环神经网络zhuanlan.zhihu.com![ce0de643a826ed0a649d7e2210e5aa48.png](https://i-blog.csdnimg.cn/blog_migrate/6b5cc1b07350e76e21d3f6dd277a36c5.jpeg)
一、LSTM 网络
长短期记忆网络–通畅叫做”LSTMs”–是一种特殊的RNNs, 它能够学习长期依赖。LSTM由Hochreiter&Schmidhuber(1997)引入,被明确的设计用来解决长期依赖问题。
所有的递归神经网络都有重复神经网络本身模型的链式形式。在标准的RNN, 这个复制模块只有一个非常简单的结构,例如一个tanh层。
![3dfe2c46993d51b0577d18760d59a574.png](https://i-blog.csdnimg.cn/blog_migrate/053dafc7a7a1bd5c269434fd4d96753b.png)
LSTMs 也有这种链式结构,但是这个重复模块与上面提到的RNN结构不同:LSTMs并不是只增加一个简单的神经网络层,而是四个,它们以一种特殊的形式交互。
![a76b85d734eb48da434e0ba910d63bd7.png](https://i-blog.csdnimg.cn/blog_migrate/c9615bd2f48e88fa2e92194db7c19079.png)
首先简绍使用的符号表示方法:
![4e1303356a8e05007243a7cdd6565872.png](https://i-blog.csdnimg.cn/blog_migrate/29851143b7616a9406bdadb80b306795.png)
在上图中,每条线表示一个向量,从一个输出节点到其他节点的输入节点。这个粉红色圆圈表示逐点式操作,就像向量加法。黄色的盒子是学习好的神经网络的层。线条合表示联结,相反,线条分叉表示内容被复制到不同位置。
LSTM的核心思想
LSTM的核心之处就是它的神经元状态,如下图中所示,上面那条贯穿整个结构的水平线。
神经元状态就像是一个传送带。它的线性作用很小,贯穿整个链式结构。信息很容易在传送带上传播,状态却并不会改变。