RNN_递归神经网络

最新推荐文章于 2022-07-06 18:07:20 发布

Sy丶

最新推荐文章于 2022-07-06 18:07:20 发布

阅读量2.9k

点赞数 3

分类专栏： RNN NLP 文章标签：神经网络 python tensorflow

本文链接：https://blog.csdn.net/ShineY_7/article/details/117280187

版权

NLP 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

RNN

1 篇文章 1 订阅

订阅专栏

递归神经网络

1 理解递归神经网络

1.1 什么是递归神经网络

递归神经网络（RNN）是一个特殊的神经网络系列，旨在处理序列数据，例如一系列的文本或者股票市场的波动。现实问题中存在着很多序列型的数据，例如文本、语音以及视频等。这些序列型的数据往往都是具有时序上的关联性的，既某一时刻网络的输出除了与当前时刻的输入相关之外，还与之前某一时刻或某几个时刻的输出相关。递归神经网络具有一定的记忆功能，这种网络与序列和列表密切相关，可以被用来解决很多问题，例如：语音识别、语言模型、机器翻译等。递归神经网络与前馈神经网络比较，后者并不能处理好这种关联性，因为它没有记忆能力，所以前面时刻的输出不能传递到后面的时刻。

综述，递归神经网络的本质是一个用于处理和预测序列数据的神经网络模型，神经元在前面某一时刻的输出可以作为输入来帮助获得当前时刻的输出，这一点与传统的前馈神经网络不同。

1.2 关于前馈神经网络

1.2.1 结构模型

前馈神经网络：每层神经元与下层神经元相互连接，神经元之间不存在同层连接，也不存在跨层连接。

图1.1 前馈神经网络结构示意图

1.2.2 与RNN区别

前馈神经网络在时间t上的预测输出仅取决于当前的输入。也就是说，当前预测输出的结果与时间t之前的任何输入都无关系。可以举一个例子：

Yang is learning how to ___.

如果使用前馈神经网络，并且一次处理一个单词，则只会输入to，不足以理解这个短句。

此外，RNN在解决时间任务方面更强大。此外，RNN可以表现出许多不同的形式:一对一(文本生成)、多对一（顺序图像分类)、一对多(图像描述)和多对多(机器翻译)。

1.3 RNN模型

递归神经网络，带有一个指向自身的环，用来表示它可以传递当前时刻处理的信息给下一时刻使用，如下图所示，一条链状神经网络代表了一个递归神经网络，可以认为它是对相同神经网络的多重复制，每一时刻的神经网络会传递信息给下一时刻。

图1.2 RNN结构示意图

其中Xt为网络层的输入，A表示模型处理部分，ht为输出，A的细节实现如下图所示：

图1.3 模型处理示意图

假设输入和输出是序列数据，设计了一个可以表示输入和输出序列的计算图。该计算图形产生了一系列函数副本，我们将其应用于序列中的每个个体输入输出元组。然后，通过将该模型应用到序列中的任何给定的单个时间步长t，我们能够得到RNN的基本计算图。我们讨论了计算隐藏状态和输出的准确数学方程和更新规则。

2 基于时间的反向传播

2.1 为什么RNN不能直接使用反向传播

图 2.1 RNN的计算

由图2.1，我们可以发现RNN的计算过程中有一个额外的循环权重w3，当我们应用链式法则时：

其中h是递归的，最终会得到无穷多的导数项。若要解决这一问题，可以将输入序列随时间展开，为每个输入Xt创建RNN副本，并分别计算每个副本的导数，并通过计算梯度的总和将他们回滚，以计算需要更新的权重大小。

2.2 基于时间的反向传播：训练RNN

根据损失函数利用SGD来求解最优参数，在CNN中使用反向传播BP算法来求解最优参数，但在RNN就要用到BPTT，它和BP算法的本质区别，也是CNN和RNN的本质区别：CNN没有记忆功能，它的输出仅依赖与输入，但RNN有记忆功能，它的输出不仅依赖与当前输入，还依赖与当前的记忆。这个记忆是序列到序列的，也就是当前时刻收到上一时刻的影响，例如开头提到的股市变化。

2.3 梯度消失和梯度爆炸

我们看到，当只有4个时间步时，我们有一项w3。因此，在第n个时间步，它将变w3的n-1次方。如果我们初始化w3为非常小的值(比如0.00001),那么在n=100时间步长，梯度将是无穷小，这被称为梯度消失。

另一方面，假设我们将w3初始化为非常大的值(比如说1000.00),那么，在n=100时间步长，梯度将是巨大的，这称为梯度爆炸。

问题的损失面的复杂性也可能导致发生梯度爆炸。由于输人的维数以及模型中存在的大量参数(权重)，复杂的非凸损失面在深度神经网络中非常常见。图2.5显示了RNN的损失面，突出显示了非常高的曲率形成了墙。如图中的实线所示，如果优化方法碰到这样的墙，那么梯度将爆炸或过冲。这可能导致损失最小化很差或数值不稳定性，或两者兼而有之。在这种情况下，避免梯度爆炸的简单解决方案是在梯度大于某个阈值时，将梯度剪裁为合理小的值。