循环神经网络(RNN)
为了更好地解决序列信号问题,例如语音识别,机器翻译,情感分类,音乐发生器等,需要构建一种新的神经网络模型,RNN就是这样的序列模型
传统的神经网络模型
x < 1 > , x < 2 > , . . . , x < T s > x^{<1>},x^{<2>},...,x^{<T_s>} x<1>,x<2>,...,x<Ts>是序列模型的输入,即序列信号, T x T_x Tx表示输入信号的长度,例如一段文字的长度,一段语音包含的单词数目, y < 1 > , y < 2 > , . . . , y < T s > y^{<1>},y^{<2>},...,y^{<T_s>} y<1>,y<2>,...,y<Ts>是序列模型的输出, T y T_y Ty表示输出信号的长度。
如果使用标准的神经网络结构来处理,存在两个问题。
1.不同样本的输出序列长度或者输出的序列长度可能不同:例如无法确定两个句子中包含的单词数目是一样的
2.也是最主要的,这种标准神经网络结构无法共享序列不同。
基本的RNN模型
首先我们需要知道的是RNN输入信号的编码问题,我们知道序列信号可能是一段文字,也可能是一段语音,文字如何量化成数字信号的呢?
最常见的方式就是建立一个词汇表(例如1000个单词),每个单词使用One-Hot形式进行编码,这样一个单词就由1000*1的向量组成。该向量对应词汇表顺序,相应单词对应位置为1,其他位置为0
RNN正向传播
RNN模型包含三类权重系数,分别是 W a x , W a a , W y a W_{ax},W_{aa},W_{ya} Wax,Waa,Wya,且不同元素之间同一位置共享同一权重系数,这样做的有点是模型参数与序列信号长度无关。
上图展示了一个包含隐藏层的RNN模型,正向传播(Forward Propagation)过程的表达式如下
a < t > = g ( W a a ∗ a < t − 1 > + W a x ∗ x < t > + b a ) a^{<t>} = g(W_{aa}*a^{<