RNN基本结构解读

最新推荐文章于 2024-06-14 17:59:23 发布

黑白77

最新推荐文章于 2024-06-14 17:59:23 发布

阅读量5.1k

点赞数 5

分类专栏：深度学习文章标签： NLP RNN 深度学习神经网络 LSTM

本文链接：https://blog.csdn.net/liu246437/article/details/102871770

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

RNN基本结构解读

在计算机视觉领域，最常用的网络结构就是CNN卷积神经网络。但是在现实中我们存在很多序列型数据，比如某一天的温度记录，一段时间内某支股票的变化情况，文本序列，乃至视频流，我们都可以认为其实序列型数据，它们在时间上存在先后关系。处理这些序列数据最常用、最传统的深度学习模型就是 循环神经网络RNN(Recurrent Neural Network)。自然语言处理所要面对的主要是这种文本序列。本文将详细介绍RNN的基本机构。

1. RNN的多种结构

与CNN不同的是，RNN具有多种网络结构。联系实际很容易想到，在不同的时间段内，序列数据的长短总是不一致的。就像我们说话，每一句的长度都是不确定的。由此我们得出了以上五种基本结构。

1.1 单层网络结构

最基本的单层网络结构，输入是 $x$ ，经过变换 $W \cdot x + b$ 和激活函数 $f$ 得到输出 $y$ 。

1.2 经典RNN网络结构

序列型的数据不太好用原始的神经网络处理。为了处理序列建模问题，RNN引入了隐藏态 $h$ (hidden state)的概念。 $h$ 可以对序列型的数据提取特征，接着再转换为输出。

如上图，我们从 $h_1$ 开始逐步推到其计算过程。首选阐述图中网络结构的基本含义：

圆圈或方块表示向量
一个箭头表示对该向量做一次变换

如图所示， $h_0$ 和 $x_1$ 分别有一个箭头连接 $h_1$ ，表示对 $h_0$ 和 $x_1$ 分别作了一次变化。图中的 $U$ 和 $W$ 是参数矩阵， $b$ 是偏置项参数， $f$ 是激活函数。在经典的RNN网络结构中，通常使用 $t a n h$ 作为激活函数。有了 $h_1$ 的计算，我们很容易可以推出之后的计算流程，每一步的过程与第一步基本一致。

这里需要特别强调的是：🙄🙄🙄***在计算时每一步使用的参数 $U$ 、 $W$ 、 $b$ 都是一样的，即每一个步骤的参数都是共享的，这是RNN的重要特性。***🙄🙄🙄

根据上面的计算法则，我们把对应的四个 $x$ 输入全部计算，得到下图：

这里我们只给了四个输入，其实它是可以一直无限循环下去的。此时我们并未得到真正的输出，我们得到的是一些列的隐藏层 $h_i$ 。要得到真正的输出 $y$ ，我们还需要一下的计算：

这里使用了🙄🙄🙄***新的参数*** $V$ 和 $c$ 。🙄🙄🙄

一般我们在处理多分类问题时，都会使用 $s o f t m a x$ 函数将输出转换为各个类别的概率。我们在前文说过，一个箭头表示一次转换操作，这里 $h_1$ 经过 $Softmax(V·h_1 + c)$ 得到 $y_1$ 。同样地，我们通过相同的转换将剩下的隐藏层 $h$ 转换为对应的输出，如下图：

这就是经典的RNN网络结构，怎么样是不是很简单，如果不简单的话一定是我没有写好，不是网络结构的问题，是我表达的问题🙄🙄🙄。

从我们最后得到的结果我们可以看出，输入序列是 $X_i$ ，经过RNN循环神经网络的计算得到输出序列 $Y_i$ 。你一定发现了一个问题，这里我们的输入序列 $X_i$ 和输出序列 $Y_i$ 是等长的，也就是我们文章开头给出的五种RNN网络结构中的第五种。

1.3 其它RNN结构

如何将等长序列转化成其他类似one to many或者many to one呢？回顾一下我们是怎么将隐藏态 $h_i$ 转化成输出 $y_i$ 的，我们对每一个隐藏态 $h_i$ 进行了 $S o f t m a x$ 操作。对应的，当我们只想获得一个输出时怎么办，我们

仅需对最后一个隐藏态 $h_n$ 进行 $S o f t m a x$ 操作即可，如下图：

这样我们就得到了many to one结构。是不是很简单，这是我们更有理由相信**"Less is more, simple is all."这时候肯定有人会问，那我们的one to many怎么实现呢？毕竟我们没有办法像得到 $Y$ 那样，仅对最后的隐藏态 $h_n$ 进行 $S o f t m a x$ 操作。基本的one to many**结构如下：

我们只有一个输入 $X$ ，我们是不是说过**“Less is more, simple is all.”**根据这句话你想想你应该怎么办？对，就是把输入 $X$ 复制 $n$ 次，在每一个隐藏态 $h_i$ 所对应的输入位置都填入相同的输入 $X$ 。变成下图所示的结构：

我们简化一下上图的结构，将输入 $X$ 分别对应到隐藏态 $h_i$ ：

对于这种one to many的网络结构，一般应用于：

从图像生成文字（image caption），此时输入的X就是图像的特征，而输出的y序列就是一段句子，就像看图说话等
从类别生成语音或音乐等

2. Encoder-Decoder

2.1 Encoder-Decoder的基本结构

细心的小伙伴一定发现了，不对啊，差一种啊，对于那种输入和输出都是多个值，但是不相等的形式你没有说啊。没错，这个结构比较特殊，所以我们单独拿出来说一下。对于这种输入输出不等长的形式，我们暂且称其为n to m。其实他就是我们标题所写的Encoder-Decoder，也称为Seq2Seq。

Seq2Seq是RNN的一个变种形式，其出现源自具体的现实需求，正如我们所说，在大多数时候，文本序列的输入和输出是不等长的，例如翻译过程中："I hava a pen, I hava an apple, en… apple pen."翻译成中文是：“我有一支笔，我有一个苹果，嗯。。。苹果笔”。🙄🙄🙄这里英文和中文的长度明显就是不一样的，而且大多数情况下，目标语言和源语言之间的长度都是不一致的。为此，Encoder-Decoder结构先将输入数据编码成一个上下文语义向量c：

语义向量c可以有多种表达方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。

拿到c之后，就用另一个RNN网络对其进行解码，这部分RNN网络被称为Decoder。Decoder的RNN可以与Encoder的一样，也可以不一样。具体做法就是将c当做之前的初始状态h0输入到Decoder中：

如果只看上图语义向量c及其右边的部分，你是不是很眼熟，想想我们上面将的one to many结构，我想你一定知道该怎么做了。对，我们还有另一种结构，将c当做每一步的输入：

2.2 Encoder-Decoder应用范围：

于这种Encoder-Decoder结构不限制输入和输出的序列长度，因此应用的范围非常广泛，比如：

机器翻译：Encoder-Decoder的最经典应用，事实上这结构就是在机器翻译领域最先提出的。
文本摘要：输入是一段文本序列，输出是这段文本序列的摘要序列。
阅读理解：将输入的文章和问题分别编码，再对其进行解码得到问题的答案。
语音识别：输入是语音信号序列，输出是文字序列。

2.3 Encoder-Decoder 缺点

最大的局限性：编码和解码之间的唯一联系是固定长度的语义向量c
编码要把整个序列的信息压缩进一个固定长度的语义向量c
语义向量c无法完全表达整个序列的信息
先输入的内容携带的信息，会被后输入的信息稀释掉，或者被覆盖掉
输入序列越长，这样的现象越严重，这样使得在Decoder解码时一开始就没有获得足够的输入序列信息，解码效果会打折扣

3. LSTM

终于到了本片文章最重要的部分了——LSTM。听到终于到了你是不是很崩溃，前面写了那么多，居然不是最重要的，主角没出场就罗里吧嗦的写了这么多了，脑子是不是秀逗了。其实我们前面写了那么多，但是基本都是浅尝辄止，并未深入其数学原理与计算过程，之所以主角是LSTM，在实际应用中你会发现，由于经典RNN存在"记忆力"的问题，大多数情况下，我们都需要使用LSTM作为网络的基本机构。LSTM通过"记忆门"和"遗忘门"克服了经典RNN"记忆力"不足的缺点，更适合处理序列型数据。

3.1 LSTM基本结构

从外部结构看，LSTM和RNN的输入输出是一模一样的，同样是在每一步接受外部输入和前一阶段的隐藏态，并输出一个值。因此，RNN中可以使用的每一结构都可以无无缝切换到LSTM，而不会产生任何问题。

回顾RNN的公式：$ h_t = f(U·x_t + W·h_{t-1} + b) $。从式子我们可以看出，RNN每一层的隐藏态都由前一层的隐藏态经过变换和激活函数得到，反向传播求导时，最终得到的导数会包含每一步梯度的连乘，这会引起梯度爆炸或梯度消失，所以RNN很难处理"长程依赖"问题，也就是我们所说的"记忆力"不足的问题，即无法学到序列中蕴含的间隔距离较长的规律。LSTM在隐藏态计算时，使用加法替换了这里的迭代变换，可以避免梯度消失的问题，能够学到长程的规律。

从上图我们可以看到： $h_{t-1}$ 和 $x_t$ 合到一起，经过激活函数 $t a n h$ 得到了 $h_t$ ， $h_t$ 还会被传到下一步的RNN单元中。这样就对应了我们所讲的RNN公式：$ h_t = f(U·x_t + W·h_{t-1} + b) $，激活函数使用了图中的$ tanh$。

如果我们把上图中所示的网络机构进一步细化，就会得到下图，更加具体的显示了神经元内部的计算流程：

这里我们明确一下图中个符号的具体含义：

黄色方框(Neural Network Layer)代表网络层
粉色圆圈(Pointwise Operation)表示各点的具体计算操作，具体指两个形状完全相同的矩阵进行相加、相乘或其他运算。
单箭头表示向量转换
归一箭头表示合并
拆分箭头表示复制

与经典RNN结构不同的是，LSTM的隐藏层有两部分组成，分别是 $h_t$ 和 $C_t$ 。

$C_t$ 是在各个步骤中传到的主要信息，下图中的水平线可以看做是信息传递的"主干道"，通过加法， $C_t$ 可以在主干道上进行传递，因此较远的梯度也可以在长程上传播，这是LSTM的主要思想。

这里的 $C_t$ 是一个向量，其长度是我们自行设定的，如果我们选择256，就表示我们想要用256位来保存记忆信息，这个维度越大，相当于记忆的容量越大，可保存的信息自然越多，但是需要训练的参数也会越多。

我们看到，从 $C_{t-1}$ 到 $C_t$ 经过了两次运算，一次乘法，和一次加法。第一步是忘记一些不再有用的记忆，第二步是把$ x_t $中有用的信息加到记忆中。这里我们先讲一下遗忘的过程，如下图所示的结构：

经过sigmoid函数后，原有矩阵中的值会被归一到区间 $[0, 1]$ 之间，然后经过乘法运算，矩阵中数值接近于0的元素将会被弱化，相反的，矩阵中数值接近于1的元素将会被增强。正是通过这种操作，LSTM实现了"遗忘"的功能，能够将一些不重要的信息忘记。

下面我们讲一下输入到sigmoid函数中的矩阵是怎么得来的，如下图所示：

输入到sigmoid函数中的矩阵是由上一层的隐藏态 $h_{t-1}$ 和本层输入 $x_t$ 拼接得来的，在PyTorch可以通过concat函数实现其拼接，拼接后的矩阵与权重矩阵 $W_f$ 相乘，最后加上对应的偏置项 $b_f$ ，以此得到输入到sigmoid函数中的参数矩阵。

我们前面说了，LSTM除了"遗忘门"，还有"记忆门"，其记忆结构如下：

相信有了上一部分对于"遗忘门"的介绍，理解这里的"记忆门"应该变得非常简单，因为它的操作是一毛一样的。这里我们看到了两步计算结果： $\tilde{i_t}$ 和 $\tilde{C_t}$ 。

$\tilde{i_t}$ 的计算和上一步中的 $f_t$ 是一样的，都是将 $h_{t-1}$ 和 $x_t$ 进行拼接，然后通过乘以权重矩阵 $W_i$ ，然后再通过sigmoid函数。这里注意，前面我们使用的是权重矩阵 $W_f$ ，这里使用的 $W_i$ ，这说明这两个过程中我们使用的权重矩阵是不同的，对应的下一步计算 $\tilde{C_t}$ 也是，但是 $\tilde{C_t}$ 使用的激活函数是tanh，并不是sigmoid，这是为什么呢？这里就又涉及到sigmoid函数和tanh函数的值域问题了。

对于sigmoid函数，其值域是 $[0, 1]$ ；而tanh函数的值域是 $[- 1, 1]$ ，其实你可以将tanh函数看成是sigmoid函数的"长高"版：

两个函数对输入起到了不同的调节作用，sigmoid使用来将数据映射到 $[0, 1]$ 空间，而tanh是将数据映射到 $[- 1, 1]$ ， $\tilde{i_t}$ 对 $\tilde{C_t}$ 同样起到了增强和衰弱的作用，是的想要记住的东西记得更牢靠，不想记住的东西，进一步淡化。

通过上面的介绍我们得到了 $f_t$ 、 $\tilde{i_t}$ 和 $\tilde{C_t}$ ，根据下图我们计算得出 $C_t$ ：$ C_t = f_t·C_{t-1} + \tilde{i_t}·\tilde{C_t} $。

到这里，我们已经完成了"遗忘"和"记忆"的工作，一路走来是不是很简单，千万不要看到公式就害怕，其实每个公式都很简单，只是看上去形式比较吓人而已。

我们还有一项工作没有做，就是计算输出项，同样地，我们给出流程图如下：

右边的公式看着是不是依然很熟悉，我们首先通过原本的输入 $h_{t-1}$ 和 $x_t$ 的拼接与权重矩阵 $W_o$ 相乘，然后加上新的偏置项 $b_o$ ，上述计算结果经过sigmoid函数得到 $o_t$ ，最后将 $o_t$ 与经过tanh激活的传输信息 $C_t$ 相乘，就得到了我们想要的 $h_t$ ，同样的，这里的 $h_t$ 并不是真正的输出，也只是一个隐藏状态而已，要想得到真正的输出依然需要经过一次额外的变换才能得到。

至此，我们神经元内部的计算就都结束了，这里我们做一个简单的总结：

首先每个神经元计算的输入项由两部分组成，分别是上一个隐藏态 $h_{t-1}$ 和当前输入 $x_t$ ，两者通过拼接得到 $h_{t-1}, x_t]$ ，这是今后所有矩阵运算的基础
每一步计算中的权重矩阵 $W$ 和偏置项 $b$ 都是不同的，下面我们来罗列一下这些权重矩阵和偏置项：
- 计算遗忘内筒时的中间结果 $f_t$ ，这里我们使用了 $W_f$ 和 $b_f$
- 为了计算记忆内筒，我们计算得到了中间结果 $\tilde{i_t}$ 和 $\tilde{C_t}$ ，其分别对应 $W_i$ 和 $b_i$ 以及 $W_C$ 和 $b_C$ ，
- 最后我们在计算输出的时候，得到中间结果 $o_t$ ，这里有 $W_o$ 和 $b_o$
在神经元内部，不同计算内筒间的参数矩阵和偏置项是不同的，但是整个串接的网络层中，对应位置的参数矩阵和偏置项一定是相同的。
在计算过程中，我们大量使用了sigmoid函数，在这里它的主要作用看上去就是对数据进行"增强"：重要的变得更重要(趋近于1)，不重要的变得更不重要(趋近于0)。
除了累加记忆结果的部分我们使用了矩阵的加法运算，其他地方使用的都是矩阵的乘法运算。

到此为止，我们算是将LSTM内部结构以及计算过程详细剖析了一边。对应的还有很多LSTM的变体形式，这里我们就不在一一说明了。

参考：

黑白77

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
RNN基本结构解读

RNN基本结构解读1. RNN的多种结构1.1 单层网络结构1.2 经典RNN网络结构1.3 其它RNN结构2. Encoder-Decoder2.1 Encoder-Decoder的基本结构2.2 Encoder-Decoder应用范围：2.3 Encoder-Decoder 缺点3. LSTM3.1 LSTM基本结构参考：在计算机视觉领域，最常用的网络结构就是CNN卷积神经网络。但是在现实中...
复制链接

扫一扫