神经网络与深度学习笔记（六）循环神经网络

最新推荐文章于 2024-05-30 08:00:00 发布

Stefan_xiao

最新推荐文章于 2024-05-30 08:00:00 发布

阅读量689

点赞数

分类专栏：深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_35495464/article/details/112466179

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

循环神经网络

序列数据
循环神经网络

参考学习资料：

邱锡鹏老师-《神经网络与深度学习》—循环神经网络
吴恩达老师深度学习课程—序列模型

序列数据

在前馈神经网络中，信息的传递是单向的，虽容易学习，但在一定程度上也减弱了神经网络模型的能力。前馈神经网络和一些卷积神经网络可以看做一整个复杂的函数，每次的输入都是相互独立的，每一次的结果之间互不影响，也即网络当前输出只依赖当前输入。

但是，在目前的很多任务中，网络的输出不仅和当前时刻的输入相关，同时也和其过去一段时间的输出相关。其实也可以理解为一个有限状态自动机的功能：其下一个时刻的状态（输出）不仅仅和当前输入相关，也和当前状态（上一个时刻的输出）相关。

比如，一些视频、语音、文本分析处理任务等。下面介绍一下序列数据

序列数据

序列数据是常见的数据类型，前后数据通常具有关联性。

在这里插入图片描述

Speech recognition（语音识别）：给定一个输入音频片段 $X$ ，要求输出片段对应的文字记录 $Y$ ， $X$ 是按时序播放的音频片段， $Y$ 是一段单词
Music generation（音乐生成）：输入 $X$ 可以是空集或单一整数，输出 $Y$ 是序列数据，可以要生成的一系列音符等
Sentiment classification（情感分类）：输入 $X$ 是一段序列，而输出 $Y$ 则对输入序列进行一个态度或情绪的一个打分，得到一个评级
DNA sequence analysis（DNA序列分析）：DNA序列组成可用 A、C、G、T 四个字母表示，给定一段DNA序列 $X$ ，输出 $Y$ 需要标记出哪一部分是匹配哪一种蛋白质等等
Machine translation（机器翻译）：将输入 $X$ 的句子翻译成另一种语言的序列 $Y$
Video activity recognition（视频行为识别）：在给定的一系列视频帧 $X$ 中识别视频中的行为在干什么
Name entity recognition（命名实体识别）：在给定的一段句子 $X$ 中，识别出句子中包含的人名

以上是各种各样类型的序列数据的相关任务。

那么，与传统机器学习任务中的数据集不同，序列数据需要引入索引来表示数据中的第几个元素。

语言模型

语言模型是在自然语言处理（NLP）中的重要技术，在NLP中常常把文本看作是一个离散时间序列。一段长度为T的文本的词依次为 $w_1,w_2,...,w_T$ ，其中， $w_t(1\leq t\leq T)$ 是时间步t的输出或标签。
语言模型会计算该序列概率： $P(w_1,w_2,...,w_T)=\prod_{t=1}^TP(w_t|w_1,...,w_{t-1})$

如，给出一个句子：
“Cats average 15 hours of sleep a day”

可以得出总时间步T=8，将每一个单词看做一个标签

统计语料库（Corpus）中的词频，得到概率：
$P (C a t s, a v e r a g e, 15, h o u r s, o f, s l e e p, a, d a y) = P (C a t s) P (a v e r a g e ∣ C a t s) P (15 ∣ C a t s, a v e r a g e) . . . . . .$

缺点：时间步t的词需要考虑t-1步的词，其计算量随t呈指数增长

构建序列模型

比如，给出一个命名实体识别问题的输入 $X$ ：

在这里插入图片描述
希望得到如下输出 $y$ ：输入的每个单词都对应一个输出值

在这里插入图片描述
这个输出 $y$ 能告诉我们输入中的单词是否是人名的一部分，也许有更复杂的表示还能告诉我们这一部分从哪里开始，从哪里结束。

那么回头看这输入，是由9个单词组成，也就是会需要9个特征集合来表示这9个单词，并按序列中的位置进行索引，那么就可以用 $x^{<t>}$ 来索引每个单词的不同位置：
$x=[x^{<1>},x^{<2>},x^{<3>}, ... ,x^{<t>},... ,x^{<9>}]\\y=[y^{<1>},y^{<2>},y^{<3>}, ... ,y^{<t>},... ,y^{<9>}]$
用 $T_x$ 表示输入序列的长度： $T_x=9$
用 $T_y$ 表示输入序列的长度： $T_y=9$

那么就可以有如下表示：

$x^{(i)<t>}$ ：第 $i$ 个训练样本输入集合中的第 $t$ 个元素
$y^{(i)<t>}$ ：第 $i$ 个训练样本输出集合中的第 $t$ 个元素
$T_x^{(i)}$ ：第 $i$ 个训练样本的输入序列长度
$T_y^{(i)}$ ：第 $i$ 个训练样本的输出序列长度

那么如何进一步表示我们序列中具体的每一个单词呢？以NLP中的文本分析任务和上面的这句话 $x$ 为例：

首先，做一张词表，里面包含表示方法中要用到的单词（比如构建一个含10000个单词的的一个词表）

在这里插入图片描述
可以用 one-hot向量来表示词典里的每个单词，如，“Harry” 就可以表示为：

最终就会得到9个one-hot向量：

在这里插入图片描述
如果在序列中遇到了不在我所构建的词表中的单词，就可以为其创建一个新的标记伪造单词： $< U N K >$ 来表示不在词表中的单词。

循环神经网络

有了序列数据的一个构建，就需要我们把它输入到神经网络中去进行训练，如果将其放到我们的传统前馈神经网络中，是这样的过程：

在这里插入图片描述
那么此时就存在几个问题：

不能保证每一个训练样本的输入输出都具有同样长度的序列（如都是 $T_x=T_y=9$ ），就算是采用填充方法使每个句子达到同样的最大长度，这种表示方式也不是很好，况且，词表很大的话，one-hot向量的维度也会变得巨大，增加了很大的参数计算量
这样的方式并不共享从文本不同位置上学到的特征，我们往往希望模型能够根据之前学到的特征，进行一些相关的预测，比如在某一位置识别到“H”为人名一部分，那么在下一段某一位置再遇见“H”也能自动识别其为人名一部分

那这就提出了一个新思路：能不能让神经元不仅能接收其他神经元的信息，同时也能接收自身的信息，也就是说，让模型不仅能学习到样本与样本之间的特征，最重要的是能在同一个样本中学习到前后相关联的特征。

在这里插入图片描述
如图，对于上面这个句子，我们从左至右读起来，去扫描这个句子：假如从第1个单词开始，输入 $x^{<1>}$ 经过一段神经网络隐藏层，得到预测输出 $\hat{y}^{<1>}$ ，然后接着下一个 $x^{<2>}$ 经过一段神经网络隐藏层，得到预测输出 $\hat{y}^{<2>}$ ，而此时，这个 $\hat{y}^{<2>}$ 不仅是由 $x^{<2>}$ 得到的，还由前面的时间步<1>的信息获得，这样就利用到了前面的特征信息，另外，整个流程还需要一个初始的激活值 $a^{<0>}$ 用于时间步的更新， $w_{ax},w_{aa},w_{ya}$ 是权重参数。以下就是大致的流程图：

在这里插入图片描述
以上就是RNN大致的一个示意图。

RNN是针对序列数据而生的神经网络结构，核心在于循环使用网络层参数，避免时间步增大带来的参数激增。并引入隐藏状态用于记录历史信息，有效的处理数据的前后关联性。

隐藏状态：用于记录历史信息，有效处理数据的前后关联性。

循环神经网络是从左到右扫描数据的，同时每个时间步的参数也是共享的。有时，对于一些识别任务，我们不仅需要前面时间步的信息，还会需要后面的信息，这就需要对RNN进行一些其他调整，可以参考后面的BRNN（双向循环网络）。

前向传播

在这里插入图片描述
前向传播的过程如下：

在这里插入图片描述

【注】其中的 $g_1$ 、 $g_2$ 一般是两个不同的激活函数，在RNN中一般使用Tanh来计算得出隐藏状态的激活值 $a$ （Tanh能够将输出值域限制在(-1,1)之间，防止数值呈指数级变化），而输出结果往往会根据任务的不同而设置不同的激活函数，如果是命名实体识别任务，那么预测结果只有0和1两种，那么一般就会采用Sigmoid函数进行激活得到一个二分类的结果。

下面是将公式进行一下简化：

在这里插入图片描述

反向传播（随时间）

在这里插入图片描述
这个是我们RNN的前向传播过程：

在这里插入图片描述

为了计算反向传播过程，我们需要引入一个损失函数，这里先定义一个元素损失函数 $L$ ，对应序列中的一个具体的词， $\hat{y}^{<t>}$ 为预测的结果，是人名的一部分则为1，否则为0， $y^{<t>}$ 为计算得出的这个词是名字的概率值。 $L^{<t>}(\hat{y}^{<t>},y^{<t>})=-y^{<t>}log(\hat{y}^{<t>})-(1-y^{<t>})log(1-\hat{y}^{<t>})$ 这里可以定义为标准的Logistic 回归损失函数，也叫交叉熵损失函数。这是关于单个单词或者说某个时间步 $t$ 上的预测值的损失函数，那么整个序列的损失函数就为：
$L(\hat{y},y)=\sum_{t=1}^{T_y}L^{<t>}(\hat{y}^{<t>},y^{<t>})$
于是，整个过程就是这样，根据每一个时间步的 $\hat{y}$ 和 $y$ 计算对应的损失 $L^{<t>}$ ，最后把每个单独时间步的损失函数都加起来，得到整个序列的损失函数 $L$ 。

在这里插入图片描述

不同类型的循环神经网络

在这里插入图片描述

应用到机器学习的几种模式

序列—类别

输入：序列 $x_{1:T}=(x_1,...,x_T)$ ，长度为T
输出：类别 $y\in {(1,...,C)}$

将样本 $x$ 按不同时刻输入RNN中，得到不同时间步的隐藏状态 $h_1,...,h_T$
可将 $h_T$ 作为整个序列的最终表示（用于特征分类），并送入分类器如Softmax等： $\hat{y}=g(h_T)$ ；也可取整个所有隐藏状态的平均值： $\hat{y}=g(\frac{1}{T}\sum_{t=1}^Th_t)$

在这里插入图片描述

同步的序列—序列

同步的序列到序列模式，意味着和前面只在最后有输出不一样，模型的每一时刻都有输入输出，且输入序列和输出序列的长度相同，每个时刻得到的隐藏状态 $h_t$ 代表当前时刻和历史的信息，每一个时间步t都要送入分类器中得到分类概率： $\hat{y_t}=g(h_t),\quad \forall t\in [1,T]$

在这里插入图片描述

异步的序列—序列

异步的序列—序列模式也称为：编码器—解码器（Encoder—Decoder）模型，也就是说，输入序列和输出序列不一定要有严格的对应关系，而且序列长度可以不一样，比如一些机器翻译任务，输出序列长度和输入序列长度一般是不一样的。一般通过先编码后解码方式实现。

输入：序列 $x_{1:T}=(x_1,...,x_T)$ ，长度为T
输出：序列 $y_{1:M}=(y_1,...,y_M)$ ，长度为M

先将输入序列按不同时刻输入到编码器（一个RNN）中，得到编码结果 $h_T$
再使用解码器（另一个RNN）对其进行解码（一些非线性计算操作）得到输出序列 $\hat{y}_{1:M}$ ，为建立输出序列之间的依赖关系，在解码器中通常使用非线性的自回归模型

整个编码—解码过程如下：

在这里插入图片描述

$f_1$ 、 $f_2$ ：分别为用作编码器和解码器的循环神经网络
$g(\cdot)$ ：分类器

在这里插入图片描述

门控循环单元（GRU）

GRU，门控循环单元。
相比传统的RNN，改变了其隐藏层，引入门控机制，使其能够更好地捕捉深层连接，控制信息更新的方式，并改善了梯度消失问题。

如下面公式为RNN模型第t个时间步的激活值计算：
$a^{<t>}=g(W_a[a^{<t-1>},x^{<t>}]+b_a)$

上一个时间步的激活值 $a^{<t-1>}$ 乘以权重矩阵，加上当前时间步的输入 $x^{<t>}$ 乘以权重矩阵，加上偏置得到当前时间步t的激活值 $a^{<t>}$ 。

在这里插入图片描述
而在GRU单元中有一个新的参数变量：c，代表细胞，即记忆细胞，用于给网络提供记忆能力。那么，在时间步 $t$ 时，网络得到激活值 $a^{<t>}$ ，此时令 $c^{<t>}=a^{<t>}$ ，先让记忆细胞记一下当前时间步的激活值，到了后面通过计算记忆细胞 $c$ 会得到新的值，这个值会作为候选值来重写更新记忆细胞的原来值，我们用 $\tilde{c}^{<t>}$ 表示。

但是，记忆细胞中的值我们不一定每次都需要更新，这里GRU采用一个门控单元 $\Gamma_u$ 来控制记忆值的更新，和另一个门控单元 $\Gamma_r$ 来计算要更新的值与原来值的相关性，以便在恰当的时机进行合适的更新：
$\varGamma _u=\sigma \left( W_u\left[ c^{<t-1>},x^{<t>} \right] +b_u \right)$
$\varGamma _r=\sigma \left( W_r\left[ c^{<t-1>},x^{<t>} \right] +b_r \right)$

$\Gamma_u$ ：更新门（值在0~1之间），用于控制信息流通，也就是控制是否需要更新记忆值
$\Gamma_r$ ：相关门（值在0~1之间），表示候选值与当前记忆细胞值的相关性
$\sigma$ ：Sigmoid函数，用于控制门控值在0~1之间

这样，候选值 $\tilde{c}^{<t>}$ 通过tanh作为激活函数（用tanh是由于其导数有比较大的值域，能够缓解梯度消失问题）计算得到： $\tilde{c}^{<t>}=tanh\left( W_c\left[ \Gamma_r*c^{<t-1>},x^{<t>} \right] +b_c \right)$
对于相关门 $\Gamma_r$ ：

当 $\Gamma_r=0$ 时，候选值 $\tilde{c}^{<t>}=tanh(W_c\cdot x^{<t>}+b_c)$ ，只与当前时间步t的输入 $x_t$ 相关，和历史记忆值无关。
当 $\Gamma_r=1$ 时，候选值 $\tilde{c}^{<t>}=tanh\left( W_c\left[c^{<t-1>},x^{<t>} \right] +b_c \right)$ ，和当前输入和历史记忆值都相关，此时就相当于一个简单的RNN。

那么综上，记忆细胞 $c^{<t>}$ 中的值的更新情况可以用这样的公式来表示：
$c^{<t>}=\varGamma _u* \tilde{c}^{<t>}+\left( 1-\varGamma _u \right) * c^{<t-1>}$
对于更新门 $\Gamma_u$ ：

当 $\Gamma_u=1$ 时， $c^{<t>}=\tilde{c}^{<t>}$ ，就是把记忆细胞赋值为当前的候选值，记忆值就更新了。
当 $\Gamma_u=0$ 时， $c^{<t>}=c^{<t-1>}$ ，也就是等于旧的记忆值，不更新，一直记忆的是之前时间步的值。

最终，得到新的记忆细胞值，直接输入给下一个GRU单元： $a^{<t>}=c^{<t>}$

GRU的核心在于门控，通过门确定候选值 $\tilde{c}^{<t>}$ 和 $c^{<t>}$ 之间的相关性（依赖性）来决定是否保留原来的记忆（记忆or遗忘）。下图即为GRU循环单元的一个简单的示意图：

在这里插入图片描述

长短期记忆（LSTM）

长短期记忆网络（LSTM）引入了三个门控单元来控制信息传递，并且在记忆细胞值进行传递到下一单元作为激活值时，另外引入了门控来控制输出，与将记忆细胞值直接作为下一单元的激活值的GRU是不同的。

LSTM中参与当前时间步t计算的上一时间步t-1的激活值 $a^{<t-1>}$ 已经不再是上一单元得出的记忆细胞中的值 $c^{<t-1>}$ 了（两者不相等），所以此时当前时间步t的记忆细胞候选值的计算如下：
$\tilde{c}^{<t>}=tanh\left( W_c\left[ a^{<t-1>},x^{<t>} \right] +b_c \right)$
引入三个门控单元：更新门（ $\varGamma_u$ ）、遗忘门（ $\varGamma_f$ ）和输出门（ $\varGamma_o$ ）
$\varGamma _u=\sigma \left( W_u\left[ a^{<t-1>},x^{<t>} \right] +b_u \right) \\ \varGamma _f=\sigma \left( W_f\left[ a^{<t-1>},x^{<t>} \right] +b_f \right) \\\varGamma _o=\sigma \left( W_o\left[ a^{<t-1>},x^{<t>} \right] +b_o \right)$

更新门（ $\varGamma_u$ ）：控制当前时间步t的记忆细胞值的更新，对于当前时间步，候选值 $\tilde{c}^{<t>}$ 应保留多少需要的信息
遗忘门（ $\varGamma_f$ ）：控制上一个时间步t-1得到的记忆细胞值 $c^{<t-1>}$ 需要遗忘掉多少不需要的信息
输出门（ $\varGamma_o$ ）：控制当前时间步t最终得到的输出值，有多少部分信息需要传递给下一单元
$\sigma$ ：Sigmoid函数，输出区间（0,1）

得到的当前时间步t的记忆细胞值 $c^{<t>}$ 为：
$c^{<t>}=\varGamma _u* \tilde{c}^{<t>}+\varGamma _f* c^{<t-1>}$

当 $\varGamma_u=1,\varGamma_f=0$ 时，记忆细胞将历史信息清空，并更新为候选值 $\tilde{c}^{<t>}$ ，此时记忆细胞中的值依然和上一时间步的历史信息（激活值 $a^{<t-1>}$ ）相关
当 $\varGamma_u=0,\varGamma_f=1$ 时，记忆细胞为上一时间步t-1的旧值 $c^{<t-1>}$ ，不进行更新

最后，通过输出门（ $\varGamma_o$ ）的控制得到新的用于下一单元的激活值 $a^{<t>}$ ：

$a^{<t>}=\varGamma _o* tanh\left( c^{<t>} \right)$
整个LSTM网络的示意图：

在这里插入图片描述
【注】有关“记忆”
RNN中，无论是GRU或LSTM，其中的记忆细胞 $c$ 存储了历史信息，就起到了记忆的功能，只不过，在简单循环网络中，记忆单元 $c$ 每个时刻都会被重写更新，因此可以看作一种短期记忆（ Short-Term Memory）。在神经网络中，长期记忆（ Long-Term Memory）可以看作网络参数，隐含了从训练数据中学到的经验，其更新周期要远远慢于短期记忆。而在 LSTM 网络中，记忆单元 $c$ 可以在某个时刻捕捉到某个关键信息，并有能力将此关键信息保存一定的时间间隔。此时，记忆单元中保存信息的生命周期要长于短期记忆，但又远远短于长期记忆，长短期记忆是指长的“短期记忆”。
因此称为长短期记忆（Long Short-Term Memory）。

双向神经网络（BRNN）

在之前提到的命名实体识别任务中，我们知道，对于有些句子，为了识别出句子中代表人名的主体，我们光看句子的前面的部分是往往不够的，需要纵观整个序列去进行全局把握，才能有充分的上下文信息去预测准确的结果。因此，在这样的任务中，我们可以增加一个按照时间的逆序来传递信息的网络层，来增强网络的能力。

如：

He said,“Teddy bears are on sale!”
He said, “Teddy Roosevelt was a great President!”

会发现，在对第三个位置“Teddy”进行预测时，根据前三个位置的信息无法判断这是否是人名的一部分，只有看到后面的泰迪熊和前美国总统，才能判断前美国总统的这个Teddy才是人名。对于简单的RNN以及GRU、LSTM都只会考虑历史信息，而无法考虑未来的信息来获得更准确的预测结果。

那么一个双向的RNN模型就能解决这个问题，如图：

在这里插入图片描述
如给定的T个时间步的输入序列： $x^{<1>},x^{<2>},...,x^{<T>}$

前向循环单元（右箭头）
反向循环单元（左箭头）

给定一个输入序列 $x^{<1>}$ 到 $x^{<T>}$ ，首先依次计算前向循环单元的激活值从第一个时间步到第T个时间步，然后，反向序列从计算第T个时间步开始，反向进行，一直到第一个时间步的激活值，会发现整个网络构成了一个无环图。在所有前向反向激活值计算出之后，就可以进行每个时间步的预测输出了：
$\hat{y}^{<t>}=g(W_y[前向激活值,反向激活值]+b_y)$
在这里插入图片描述

深层循环神经网络

有时候对于一些复杂函数的学习，通常我们会把RNN的多个层堆叠在一起构建更深的模型，这种堆叠结构称为堆叠RNN（SRNN），也叫循环多层感知机（RMLP）。第 𝑙 层网络的输入是第 𝑙 − 1层网络的输出： $h_t^{(l)}=g(W^{(l)}[h_{t-1}^{(l)},h_{t}^{(l-1)}]+b^{(l)})$

在这里插入图片描述

RNN扩展到图神经网络

如果将循环神经网络按时间展开，每个时刻的隐藏状态 𝒉𝑡 看作一个节点，那么这些节点可以构成一个链式结构，每个节点 𝑡 都收到其父节点的消息，并更新自己的状态，传递给其子节点。而链式结构是一种特殊的图结构，我们可以比较容易地将这种消息传递的思想扩展到任意的图结构上。

在实际应用中，很多数据是图结构的，比如知识图谱、社交网络、分子网络等。而前馈网络和反馈网络很难处理图结构的数据。

图神经网络（GNN）就是将消息传递的思想扩展到图结构数据上的神经网络。
对于一个任意的图结构 $G (v, e)$ ，其中 $v$ 表示节点集合， $e$ 表示边集合，而每条边表示两个节点之间的依赖关系，节点之间的连接可以是有向的，也可以是无向的。图中的每一个节点 $v$ 都用一组神经元来表示其状态信息 $h^{(v)}$ ，初始状态可以为节点 $v$ 的输入特征 $x^{(v)}$ ，每个节点可以收到来自相邻节点的消息，并更新自己的状态（所有的结构同时接受信息并更新自己的状态，同步更新）。
$m_t^{(v)}=\sum_{u\in N(v)}f(h_{t-1}^{(v)},h_{t-1}^{(u)},e^{(u,v)})$
$h_t^{(v)}=g(h_{t-1}^{(v)},m_t^{(v)})$