一.首先什么是RNN。
在字幕翻译时,RNN采用一种自循环结构,可以很好的对之前的输入进行记忆。对以前的信息与现在的信息进行联结。
(1)基本循环神经网络基本循环神经网络
1.网络结构图
x是一个向量,它表示输入层的值。
s是一个向量,它表示隐藏层的值(这一层其实可以是多个节点,节点数与向量s的维度相同);
U是输入层到隐藏层的权重矩阵;
o也是一个向量,它表示输出层的值;
V是隐藏层到输出层的权重矩阵。
循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x,还取决于上一次隐藏层的值s。权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。
2.计算方法
(2)双向循环神经网络
1.为什么提出:
因为在进行语音识别时,光看前面的信息是不够的。
2.网络结构
3.计算公式
(3)深度循环神经网络
1.定义:有两个以上的隐藏层
2. 计算方法
(4)循环神经网络的训练
二.为什么使用LSTM?
因为RNNs理论上是可以将以前的信息与当前的任务进行连接,例如使用以前的视频帧来帮助网络理解当前帧。但RNNs不一定能做到这一点。
因为当依赖的以前的信息与当前信息相距较近时,RNN可以,但相距较远时,虽然RNN理论上通过调参是可以的,但实际上是不可以的,LSTMs这种特殊的RNNs是没有这个问题的。(长依赖问题)
三.什么是LSTM。
全称:Long Short Term Memory networks。