2.1-RNN-概率和语言模型

骑着蜗牛环游深度学习世界

已于 2024-07-14 11:44:49 修改

阅读量674

点赞数 16

分类专栏：深度学习自然语言处理基础 # RNN模型文章标签： rnn 语言模型人工智能

于 2024-07-14 11:42:40 首次发布

本文链接：https://blog.csdn.net/colleges/article/details/140414421

版权

深度学习自然语言处理基础同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

RNN模型

3 篇文章 0 订阅

订阅专栏

文章目录

1语言模型的概念
2概率视角下的word2vec
3能否将word2vec用作语言模型
4 RNN

1语言模型的概念

语言模型使用概率来评估一个单词序列发生的可能性，即在多大程度上是自然的单词序列
1. 例如在语音识别中，系统会根据人的发言生成多个句子作为候选；此时，使用语言模型，可以按照“作为句子是否自然”这一基准对候选句子进行排序；即按照每个句子是自然的句子的概率来排序；
用后验概率来表示一个句子（语言模型）：
1. 考虑由 $m$ 个单词 $w_1, · · · ,w_m$ 构成的句子，将单词按 $w_1, · · · ,w_m$ 的顺序出现的概率记为 $P(w_1, · · · ,w_m)$ ；因为这个概率是多个事件一起发生的概率，所以称为联合概率；
2. 根据概率的知识，两个事件同时发生的概率可以用条件概率来表示，如下式所示；至于谁是谁的条件都可以，这里并没有明确的先后顺序；
  $\tag{1}$
  即 $A$ 和 $B$ 两个事件共同发生的概率 $P (A, B)$ 是 $B$ 发生的概率 $P (B)$ 和 $B$ 发生后 $A$ 发生的概率 $P (A ∣ B)$ 的乘积。
3. 基于这个概率公式，我们可以对上面的联合概率 $P(w_1, · · · ,w_m)$ 进行分解，分解过程如下：
  1. 首先，令 $A=w_1, · · · w_{m-1}$ ，则有：
    $P(w_1, · · · ,w_m)=P(A,w_m)=P(w_m|A)P(A) \tag{2}$
  2. 类似地，令 $A^{'}=w_1, · · · w_{m-2}$ ，则有：
    $P(A)=P(A^{'},w_{m-1})=P(w_{m-1}|A^{'})P(A^{'}) \tag{3}$
  3. 以此类推，我们最终可以将联合概率分解为：
    $\begin{aligned} P(w_1, · · · ,w_m)&=P(w_m|w_1,\cdots,w_{m-1})P(w_{m-1}|w_1,\cdots,w_{m-2})...P(w_3 | w_1,w_2)P(w_2 | w_1)P(w_1)\\ &=\prod_{t=1}^mP(w_t|w_1,\cdots,w_{t-1}) \end{aligned} \tag{4}$
    即联合概率可以表示为后验概率的乘积。放到句子中就是：以目标词左侧的全部单词为上下文(条件)的后验概率表示到目标词为止的句子的概率。也就是说，要求语言模型的联合概率 $P(w_1, · · · ,w_m)$ ，只需要求式(4)中的 $P(w_t|w_1,\cdots,w_{t-1})$ 。

2概率视角下的word2vec

以CBOW模型为例。

CBOW模型是用目标词左右的上下文单词来预测中间的词；在1.6自然语言的分布式表示-word2vec补充说明.md中我们说过，CBOW可以用概率建模为 $P(w_t|w_{t-1},w_{t+1})$ ；并结合交叉熵损失函数进一步转换为 $L=-\log P(w_t|w_{t-1},w_{t+1})$ ；
如果只考虑目标词左侧的窗口，窗口大小设置为2；即考虑目标词左侧的2个单词；则CBOW可以用概率建模为 $P(w_t|w_{t-2},w_{t-1})$ ；

3能否将word2vec用作语言模型

概括
word2vec 是以获取单词的分布式表示为目的的方法，因此一般不会用于语言模型
基于 RNN 的语言模型虽然也能获得单词的分布式表示，但是为了应对词汇量的增加、提高分布式表示的质量，word2vec 被提了出来。

语言模型的联合概率 $P(w_1, · · · ,w_m)$ 是需要求句子中每个单词的 $P(w_t|w_1,\cdots,w_{t-1})$ ，然后相乘；我们如果在CBOW模型中限定只考虑目标词左侧的窗口，窗口大小设置为2，那么语言模型的联合概率 $P(w_1, · · · ,w_m)$ 可以近似表示为下式：
$P(w_1, · · · ,w_m)=\prod_{t=1}^mP(w_t|w_1,\cdots,w_{t-1})\approx\prod_{t=1}^mP(w_t|w_{t-2},w_{t-1}) \tag{5}$
由于这个上下文窗口大小是可以设置的，因此我们可以将其扩大，这样可以考虑足够长的上文单词；
但是需要注意的是，虽然上下文窗口大小是可以设置的，但是必须是固定的，因为CBOW模型的结构中，我们需要根据上下文窗口大小去生成相应数量的输入层；
那么，既然是固定的，就可能存在一个很长的句子，我们的上下文窗口没法完全覆盖，那就存在信息的丢失；下图是书上的一个例子：
另外，对于word2vec模型，没有去考虑单词的顺序；例如在CBOW模型中，我们是直接将多个输入层的输出结果相加再求平均的，是没有顺序的；当然，针对这个问题也有相关的改进，比如在中间层拼接上下文的单词向量，这虽然能够将顺序的信息加入，但是当上下文单词很多时，权重参数的数量将与上下文大小成比例地增加，如下图所示：
因此，word2vec模型不适合来表示语言模型；

4 RNN

Recurrent Neural Network 通常译为“循环神经网络”。另外，还有一种被称为 Recursive Neural Network（递归神经网络）的网络。这个网络主要用于处理树结构的数据，和循环神经网络不是一个东西。

4.1 RNN层的简单结构

循环神经网络得有循环吧；那这个循环直观体现在RNN层的结构上；
RNN层的结构如下图所示：
1. 时序数据 $(\boldsymbol{x}_0,\boldsymbol{x}_1,\cdots,\boldsymbol{x}_t,\cdots)$ 会被输入到RNN层中；时刻 $t$ 的输入是 $\boldsymbol{x}_t$ ，得到输出 $\boldsymbol{h}_t$ ；整个时序数据的输出就是 $(\boldsymbol{h}_0,\boldsymbol{h}_1,\cdots,\boldsymbol{h}_t,\cdots)$ ；
2. 在各个时刻输入的 $\boldsymbol{x}_t$ 都是向量；对应到句子里面，每个时刻输入的就是某个单词的向量表示；
3. 下图中输出侧有分支，说明RNN层的输出被**复制**了，一个进入到后面的层，一个又指向了自己；
4. 通过这个指向自己的分支，形成循环；通过数据的循环，RNN 一边记住过去的数据，一边更新到最新的数据
为了能够展示RNN层记住过去信息的特点，需要将上图旋转为下图的样子：

4.2 RNN层的循环结构

RNN的循环结构如下图所示：
1. 在循环结构中我们可以引入时刻的概念：时刻 $t$ 的输入数据为 $\boldsymbol{x}_t$ ；在自然语言处理的情况下， $\boldsymbol{x}_t$ 就是第 $t$ 个单词或者第 $t$ 个RNN层，也可以说时刻 $t$ 的单词或时刻 $t$ 的RNN层；
2. 各个时刻的 RNN 层接收传给该层的输入 $\boldsymbol{x}_t$ 和前一个 RNN 层的输出 $\boldsymbol{h}_{t-1}$ ；
3. 这样的从左向右延伸的长神经网络，和我们之前看到的前馈神经网络的结构相同；但是需要注意的是，这里虽然展开成多个RNN层，但实际上都是一个层，换句话说，梯度反向传播时，更新的参数只有一组，而不是每个层都有自己的一组参数；
单独看一下其中一个RNN层：根据输入和上一个时刻的输出，通过式(6)计算当前时刻的输出：
1. 式中的 $\boldsymbol{W}_h$ 和 $\boldsymbol{W}_x$ 是两个权重矩阵， $\boldsymbol{b}$ 是偏置；
2. 对于自然语言处理而言，当前时刻的 $\boldsymbol{x}_t$ 是一个单词的单词向量，即一个行向量； $\boldsymbol{W}_x$ 作用于当前时刻输入， $\boldsymbol{W}_h$ 作用于上一时刻的隐藏状态 $\boldsymbol{h}_{t-1}$ ，加上偏置后计算双曲正切，得到当前RNN层的输出 $\boldsymbol{h}_{t}$ ；
3. 这个 $\boldsymbol{h}_{t}$ 一方面向上输出到另一个层，另一方面向右输出到下一个 RNN 层（自身）。
4. 设输入的单词向量的维数是 $D$ ，隐藏状态向量的维数是 $H$ ； $\boldsymbol{W}_x$ 将输入变换到隐藏状态空间的维度，因此 $\boldsymbol{W}_x\in R^{D\times H}$ ；通过公式可以知道 $\boldsymbol{h}_{t}$ 与 $\boldsymbol{x}_t\boldsymbol{W}_x$ 的维度应该是一样的，即 $\boldsymbol{h}_t\in R^{1\times H}$ ；如此一来，可以推出其他各个量的形状；
5. 整个公式的形状变化如式(7)所示；
$\boldsymbol{h}_t=\tanh(\boldsymbol{h}_{t-1}\boldsymbol{W}_h+\boldsymbol{x}_t\boldsymbol{W}_x+\boldsymbol{b}) \tag{6}$

$(1,H)=tanh((1,H)\cdot(H,H)+(1,D)\cdot(D,H)+(1,H)) \tag{7}$
经过上面的介绍可以看出，现在的输出 $\boldsymbol{h}_{t}$ 是由前一个输出 $\boldsymbol{h}_{t-1}$ 计算出来的；也就是说，RNN具有“状态” $\boldsymbol{h}$ ，并通过式(6)不断被更新，那么之后的 $\boldsymbol{h}_{t}$ 就具有了之前所有隐藏状态 $\boldsymbol{h}$ 的信息；这就是说RNN层是“具有状态的层”或“具有存储（记忆）的层”的原因。

4.3 RNN的反向传播

从RNN的结构来看，RNN除了像普通神经网络那样具有纵向的前向计算外，还在水平方向上有一个正向传播计算；但是都是可以遵循计算图的；
由于水平方向上是按时间顺序展开计算的，即**按时间顺序展开的神经网络的误差反向传播法，因此称为基于时间的反向传播，Backpropagation Through Time，简称BPTT**。
如下图所示是RNN在水平方向上反向传播的示意图：

4.4 Truncated BPTT

意思为被截断的BPTT。

当水平方向上的循环过长时，在反向传播时，需要保留的正向计算时的中间数据就越多，消耗的资源就越多，因此不能对整个时间序列来求梯度，需要进行截断；而且长度过长，梯度反向传播时可能也存在梯度消失等问题；

Truncated BPTT是什么：
1. 将时间轴方向上过长的网络在合适的位置进行截断，从而创建多个小型网络，然后对截出来的小型网络执行误差反向传播法；
2. 如下图所示，我们每10个单词进行一次截断；
3. 像这样，只要将反向传播的连接截断，就不需要再考虑块范围以外的数据了，因此可以以各个块为单位（和其他块没有关联）完成误差反向传播法。
反向传播被分成好多个部分，但是**正向传播是没有被截断的**；即上图中 $\boldsymbol{h}_{9}$ 依然会进入到下一个RNN层与 $\boldsymbol{x}_{10}$ 一起得到 $\boldsymbol{h}_{10}$ ；

4.5 Truncated BPTT的mini-batch学习

4.5.1不考虑mini-batch

目前来说，我们可以先总结如下：
RNN中，一个batch里面每条数据都是一个句子；每个batch输入每个句子的某个块的数据；下一个batch再输入这些句子下一个块的数据。
每个batch中，都使用每条句子的当前块的数据进行正向传播，然后反向传播计算梯度；
一般的神经网络是：一个batch就是把多个句子的全部数据输入进去；下一个batch就是另外一些句子了；

在之前的word2vec的网络结构中，一个句子可以形成多个<上下文单词,目标词>对，我们将其输入到神经网络层中，计算中间结果；例如CBOW模型，我们可以用一个mini-batch将多个<上下文单词,目标词>对送入网络，但我们不需要去考虑每个<上下文单词,目标词>对谁在前，谁在后；
但是RNN网络中，使用Truncated BPTT来进行模型学习时，根据截断的大小，一个句子会被相应的分成几块；那么这个句子的几个块需要按顺序输入到网络中，比如：
1. 先输入第一个块的数据 $(\boldsymbol{x}_0,\boldsymbol{x}_1,...,\boldsymbol{x}_9)$ ，进行正向传播和反向传播，如下图所示：
2. 然后输入下一个块的数据 $(\boldsymbol{x}_{10},\boldsymbol{x}_{11},...,\boldsymbol{x}_{19})$ ，此时正向传播的计算需要前一个块最后的隐藏状态 $\boldsymbol{h}_{9}$ ；即正向传播是连续没有截断的；然后反向传播的时候依然是在这个块内进行，不接收前面的块的梯度，也不将梯度传递到下一个块；如下图所示：
3. 依此类推，这个过程的学习顺序就是下图的样子：
  1. 每次都是一个块的数据进行前向计算，以及反向传播；
  2. 然后再来一个块的数据；
  3. 重复上述过程；
  4. 由此可知，RNN中的块是复用的，即每一组数据都按顺序输入到同一个块中；

4.5.2考虑mini-batch

示例为：对长度为1000的时序数据，以时间长度10为单位进行截断。此时，如何将批大小设为 2 进行学习呢

由于批处理大小为2，因此相当于一个批次可以同时处理两个句子对应的一个块的数据；因此我们可以把长度为1000的时序数据分成两个“句子”，每个“句子”的长度为500
时间长度为10，因此第一个batch我们只能处理 $(\boldsymbol{x}_0,\boldsymbol{x}_1,...,\boldsymbol{x}_9)$ 和 $(\boldsymbol{x}_{500},\boldsymbol{x}_{501},...,\boldsymbol{x}_{509})$ ，然后第二个batch处理处理 $(\boldsymbol{x}_{10},\boldsymbol{x}_{11},...,\boldsymbol{x}_{19})$ 和 $(\boldsymbol{x}_{510},\boldsymbol{x}_{511},...,\boldsymbol{x}_{519})$ ；如下图所示；以此类推；