循环神经网络综述 -语音识别与自然语言处理的利器

SIGAI_csdn

于 2018-06-15 14:03:12 发布

阅读量2w

点赞数 9

文章标签：循环神经网络人工智能 SIGAI 深度学习

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/80696177

版权

本文深入介绍了循环神经网络（RNN）在处理序列数据，特别是语音识别和自然语言处理任务中的应用。RNN通过循环层保留历史信息，解决时间序列预测问题。文章详细阐述了RNN的工作原理、网络结构、训练算法，以及面临的挑战，如梯度消失，并提出了LSTM和GRU等改进模型。此外，还探讨了双向RNN、CTC和seq2seq等技术在序列标注和序列到序列学习中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文为SIGAI原创文章，仅供个人学习使用，未经允许，不能用于商业目的

欢迎搜索关注微信公众号SIGAI获取更多原创干货

导言

循环神经网络是一种具有记忆功能的神经网络，适合序列数据的建模。它在语音识别、自然语言处理等领域取得

了成功。是除卷积神经网络之外深度学习中最常用的一种网络结构。在本文中，SIGAI将和大家一起回顾循环神

经网络的发展历程与在各个领域的应用。

序列数据建模

全连接网络和卷积网络在运行时每次接收的都是独立的输入数据，没有记忆能力。在有些应用中需要神经网络具有记忆功能，典型的是时间序列预测问题，时间序列可以抽象的表示为一个向量序列：

这里的下标表示时刻，神经网络每个时刻接收一个向量输入。不同时刻的向量之间存在关系，每个时刻的向量与更早时刻的向量相关。例如，在说话时当前要说的词和之前所说的词之间相关，依赖于上下文语境。我们需要根据输入序列来产生输出向量。这类问题称为序列预测问题，输入序列的长度可能不固定。

语音识别与自然语言处理的问题是这类序列预测问题的典型代表。前者的输入是一个时间序列的语音信号；后者是文字序列。下面我们用一个实际例子来说明序列预测问题。假设神经网络要用来完成汉语填空，考虑下面这个句子：

现在已经半夜12点了，我非常困，想回家__。

最佳答案是“睡觉”或者“休息”，这个答案需要根据上下文理解得到。在这里，神经网络每次的输入为一个词，最后要填出这个空，这需要网络能够理解语义，并记住之前输入的信息即语句上下文。这里需要神经网络具有记忆功能，能够根据之前的输入词序列计出当前使用哪个词的概率最大。如何设计一个神经网络满足上面的要求？答案就是我们接下来要介绍的循环神经网络。

循环层的工作原理

循环神经网络（简称RNN）[1]会记住网络在上一个时刻的输出值，并将该值用于当前时刻输出值的生成，这由循环层实现。RNN的输入为前面介绍的向量序列，每个时刻接收一个输入，网络会产生一个输出，而这个输出是由之前的序列共同作用决定的。假设t时刻循环层的状态值为 $h_{t}$ ，它由上一时刻的状态值以及当前时刻的输入值共同决定，即：

这是一个递推关系式，现在的问题是确定这个表达式的具体形式，即将上一时刻的状态值与当前时刻的输入值整合到一起。在全连接神经网络中，神经元的输出值是对输入值进行加权，然后用激活函数进行作用，得到输出。在这里，我们可以对上一时刻的状态值，当前时刻的输入值进行类似的处理，即将它们分别都乘以权重矩阵，然后整合起来。整合可以采用加法，也可以采用乘法或者更复杂的运算，最简单的是加法，乘法在数值上不稳定，多次乘积之后数为变得非常大或者非常小。显然，这里需要两个权重矩阵，分别作用于上一时刻状态值，当前时刻的输入值，由此得到下面的递推关系式：

其中W为权重矩阵，b为偏置向量。和全连接神经网络相比，这里只是多了一个项：

它意味着在实现循环神经网络的时候需要用变量记住隐含层上次的输出值。使用激活函数的原因在SIGAI之前公众号的文章中介绍过，是为了确保非线性。下面我们用示意图来表示一个隐含层的变换：

在上图中 $h_{t-1}$ 和 $X_{t}$ 共同决定 $h_{t}$ ， $h_{t-1}$ 体现了记忆功能，而它的值又是由 $h_{t-1}$ 和 $X_{t-1}$ 决定。因此 $h_{t}$ 的值实际上是由 $X_{1}，...，X_{t}$ 决定的，它记住了之前完整的序列信息。需要强调的是，权重矩阵 $W_{hh}$ 并不会随着时间变化，而是固定的，即在每个时刻进行计算时使用的是同一个矩阵。这样做的好处一方面是减少了模型参数，另一方面也记住了之前的信息。

如果把每个时刻的输入和输出值按照时间线展开，如下图所示：

网络结构

最简单的循环神经网络由一个输入层，一个循环层，一个输出层组成。输出层接收循环层的输出值作为输入并产生输出，它不具有记忆功能。输出层实现的变换为：

函数g的类型根据任务而定，对于分类任务一般选用softmax函数，输出各个类的概率。结合循环层和输出层，循环神经网络完成的变换为：

在这里只使用了一个循环层和一个输出层，实际使用时可以有多个循环层，即深度循环神经网络，在下一节中会详细介绍。

深层网络

上面我们介绍的循环神经网络只有一个输入层，一个循环层和一个输出层，这是一个浅层网络。和全连接网络以及卷积网络一样，我们可以把它推广到任意多个隐含层的情况，得到深度循环神经网络[11]。

这里有3种方案，第一种方案为Deep Input-to-Hidden Function，在循环层之前加入多个普通的前馈层，将输入向量进行多层映射之后再送入循环层进行处理。

第二种方案是Deep Hidden-to-Hidden Transition，它使用多个循环层，这和前馈型神经网络类似，唯一不同的是计算隐含层输出的时候需要利用本隐含层在上一个时刻的输出值。

第三种方案是Deep Hidden-to-Output Function，它在循环层到输出层之间加入多前馈层，这和第一种情况类似。

由于循环层一般用tanh作为激活函数，层次过多之后会导致梯度消失问题，和残差网络类似，可以采用跨层连接的方案。在语音识别、自然语言处理问题上，我们会看到深层循环神经网络的应用，实验结果证明深层网络比浅层网络有更好的精度。

训练算法

前面我们介绍了循环神经网络的结构，接下来要解决的问题是网络的参数如何通过训练确定。由于循环神经网络的输入是时间序列，因此每个训练样本是一个时间序列，包含多个相同维度的向量。解决循环神经网络训练问题的算法是Back Propagation Through Time算法，简称BPTT[2-4]，原理和标准的反向传播算法类似，都是建立误差项的递推公式，根据误差项计算出损失函数对权重矩阵、偏置向量的梯度值。不同的是，全连接神经网络中递推是在层之间建立的，而这里是沿着时间轴建立的。限于篇幅，在这里我们不详细介绍和推导BPTT的原理，如果有机会，SIGAI会在后续的公众号文章中给出。

挑战与改进措施

循环神经网络与其他类型的神经网络共同要面对的是梯度消失问题，对此出现了一些解决方案，如LSTM等。相比卷积神经网络，循环神经网络在结构上的改进相对要少一些。

梯度消失问题

和前馈型神经网络一样，循环神经网络在进行梯度反向传播时也面临着梯度消失和梯度爆炸问题，只不过这种消逝问题表现在时间轴上，即如果输入序列的长度很长，我们很难进行有效的梯度更新。对这一问题的解释和理论分析，SIGAI会在以后的文章中给出。文献[5]对循环神经网络难以训练的问题进行了分析。进一步的，文献[6]对这一问题作出了更深的解释，并给出了一种解决方案。

LSTM

长短期记忆模型（long short time memory，简称LSTM）由Schmidhuber等人在1997年提出[7]，与高速公路网络（highway networks）有异曲同工之妙。它对循环层进行改造，具体方法是使用输入门、遗忘门、输出门3个元件，通过另外一种方式由 $h_{t-1}$ 计算 $h_{t}$

。LSTM的基本单元称为记忆单元，它记住了上一个时刻的状态值。记忆单元在t时刻维持一个记忆值 $C_{t}$ ，循环层状态的输出值计算公式为：

即输出门与状态值的乘积，在这里是向量对应元素相乘。其中 $O_{t}$ 为输出门，是一个向量，按照如下公式计算：

其中 $\sigma$ 为sigmoid函数，后面公式中含义相同。输出门控制着记忆单元中存储的记忆值有多大比例可以被输出。使用sigmoid函数这是因为它的值域是(0,1)，这样 $O_{t}$ 的所有分量的取值范围都在0和1之间，它们分别与另外一个向量的分量相乘，可以控制另外一个向量的输出比例。分别为输出门的权重矩阵和偏置向量。 $W_{xo},W_{ho},b_{o}$ 是输出门的权重矩阵和偏置项，这里参数通过训练得到。

记忆值 $C_{t}$ 是循环层神经元记住的上一个时刻的状态值，随着时间进行加权更新，它的计算公式为：

其中 $f_{t}$ 是遗忘门， $C_{t-1}$ 是记忆单元在上一时刻的值，遗忘门决定了记忆单元上一时刻的值有多少会被传到当前时刻。上式表明，记忆单元当前值是上时刻值与当前输入值的加权和，记忆值只是个中间值。遗忘门的计算公式为：

这里也使用了sigmoid函数， $W_{xf},W_{hf},b_{f}$ 分别为遗忘门的权重矩阵和偏置向量。 $i_{t}$ 是输入门，控制着当前时刻的输入有多少可以进入记忆单元，其计算公式为：

其中 $W_{xi},W_{hi},b_{i}$ 分别为输入门的权重矩阵和偏置向量。这3个门的计算公式都是一样的，分别使用了自己的权重矩阵和偏置向量，这3个值的计算都用到了 $X_{t}$ 和 $h_{t-1}$ ，它们起到了信息的流量控制作用。

隐含层的状态值由遗忘门，记忆单元上一时刻的值，以及输入门，输出门共同决定。除掉3个门之外，真正决定 $h_{t}$ 的只有 $X_{t}$ 和 $h_{t-1}$ 。总结起来，LSTM的计算思路为：

输入门作用于输入信息，遗忘门作用于之前的记忆信息，二者加权和，得到汇总信息；最后通过输出门决定输出信息。

所有的权重矩阵，偏置向量都通过训练得到，这和普通的循环神经网络没有区别，根据BPTT算法，我们可以得到这些参数的梯度值，在这里不详细介绍。

GRU

门控循环单元[8]（Gated Recurrent Units，简称GRU）是解决循环神经网络梯度消失的另外一种方法，它也是通过门来控制信息的流动。和LSTM不同的是，它只使用了两个门，把LSTM的输入门和遗忘门合并成更新门。在这里我们不详细介绍计算公式，感兴趣的读者可以阅读参考文献。

双向网络

前面介绍的循环神经网络是单向的，每一个时刻的输出依赖于比它早的时刻的输入值，这没有利用未来时刻的信息，对于有些问题，当前时刻的输出不仅与过去时刻的数据有关，还与将来时刻的数据有关，为此Schuster等人设计了双向循环神经网络[9]，它用两个不同的循环层分别从正向和反向对数据进行扫描。正向传播时的流程为：

1.循环，对t=1,...T

用正向循环层进行正向传播，记住每一个时刻的输出值

结束循环

2.循环，对对t=T,...1

用反向循环层进行正向传播，记住每一个时刻的输出值

结束循环

3.循环，对所有的t，可以按照任意顺序进行计算

用正向和反向循环层的输出值作为输出层的输入，计算最终的输出值

结束循环

下面用一个简单的例子来说明，假设双向循环神经网络的输入序列为 $X_{1},...,X_{4}$ 。首先用第一个循环层进行正向迭代，得到隐含层的正向输出序列：