深度学习笔记之循环神经网络(二)基于统计算法的语言模型

静静的喝酒

已于 2023-05-24 09:35:56 修改

阅读量431

点赞数

分类专栏：深度学习机器学习文章标签：语言模型机器学习 N-Gram

于 2023-05-17 15:33:24 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/130721705

版权

机器学习同时被 2 个专栏收录

195 篇文章 233 订阅

订阅专栏

深度学习

96 篇文章 22 订阅

订阅专栏

深度学习笔记之循环神经网络——基于统计算法的语言模型

引言

引言

上一节介绍了包含序列特征的数据，并介绍了处理序列数据的一些模型思想。本节从文本这类序列数据的角度，介绍学习文本特征的基于统计算法的语言模型。

回顾：序列特征与文本特征

序列特征

序列特征是以时间/顺序为媒介的一类特征信息。某个随机变量集合 $\mathcal X$ 描述一段时间/序列中包含的特征信息，假设序列中包含 $\mathcal T$ 个时刻，每个时刻各包含 $1$ 个随机变量 $x_t(t=1,2,\cdots,\mathcal T)$ ：
$\mathcal X = \{x_1,x_2,\cdots,x_{\mathcal T}\}$
已知一个具体样本 $x^{(i)}$ ，它的样本特征具体表示为如下形式：
$x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_{\mathcal T}^{(i)})_{\mathcal T \times 1}^T$
很明显， $x_t^{(i)}(t=1,2,\cdots,\mathcal T)$ 是对应随机变量 $x_t$ 的一个取值结果；并且由于序列特征的性质，导致各随机变量之间可能并不相互独立。因此，我们需要对各随机变量的联合概率分布进行求解：
$\mathcal P(\mathcal X) = \mathcal P(x_1,x_2,\cdots,x_{\mathcal T})$

语言特征

语言特征作为序列特征的一种情况，我们可以给随机变量赋予实际意义。这里以汉语为例，每一个随机变量描述一个词语/词组；也有可能描述一个文字。

因而，一个样本，它可能是若干个词组成的长词组。例如：美丽漂亮的姑娘：
$x^{(i)} = (\underbrace{x_1^{(i)}}_{美丽},\underbrace{x_2^{(i)}}_{漂亮},\underbrace{x_3^{(i)}}_{的},\underbrace{x_4^{(i)}}_{姑娘})^T$
它也可能是一个完整句子。例如：今天早上吃锅包肉：
$x^{(j)} = (\underbrace{x_1^{(j)}}_{今天},\underbrace{x_2^{(j)}}_{早上},\underbrace{x_3^{(j)}}_{吃},\underbrace{x_4^{(j)}}_{锅包肉})^T$
关于语言特征的联合概率分布，也就是整个文本序列出现的联合概率结果。

语言模型

语言模型的应用任务场景

预训练 $(\text{Pre-Training})$ 模型：
预训练的任务目标在于：从文本数据 $\mathcal D$ 中学习并归纳出文本特征的概率分布 $\mathcal P_{model}(\mathcal X)$ 。
在直面配分函数——随机最大似然中介绍过，可以将 $\mathcal D$ 看作是从真实分布 $\mathcal P_{data}(\mathcal X)$ 中采集样本得到的样本集合;而模型 $m o d e l$ 对 $\mathcal D$ 的特征进行学习，从而得到与真实分布 $\mathcal P_{data}(\mathcal X)$ 近似的模型分布 $\mathcal P_{model}(\mathcal X)$ ,陌生样本 $\hat x$ 通过模型产生的文本特征结果 $\mathcal P_{model}(\hat x)$ 。

这种特征也被称作幻想粒子 $(\text{Fantasy Particle})$ ——因为这个特征并不是真实分布 $\mathcal P_{data}(\hat x)$ 的结果，仅是 $\mathcal P_{model}(\hat x)$ 产生的近似结果。
$\mathcal D \sim \mathcal P_{data}(\mathcal X) \overset{\text{Learning}}{\Longrightarrow} \mathcal P_{model}(\mathcal X)$
例如一些大型生成模型如 $\text{BERT(Bidirectional Encoder Representations from Transformers),GPT-3}$ 等。预训练属于语言模型的核心任务，可以将预训练分布结果作为输入，对其他下游任务做微调 $(\text{Fine-Tunning})$ 。
生成文本：
和我们输入法中的提示词有一些类似。给定前面的若干个词 $x_1,x_2,\cdots,x_t$ ，通过模型学习出分布 $\mathcal P(x_{t+1} \mid x_1,x_2,\cdots,x_{t})$ ，并从该分布中采样得到 $x_{t+1}$ 的结果：
$x_{t+1} \sim \mathcal P_{model}(x_{t+1} \mid x_1,x_2,\cdots,x_{t})$
例如某样本 $x^{(i)}$ 给定一些词： $x_1^{(i)}=$ 今天 $x_2^{(i)}=$ 早上 $x_3^{(i)}=$ 吃；下一时刻存在某两个样本： $x_4^{(k)}=$ 黑板； $x_4^{(j)}=$ 锅包肉。从人思考的角度观察，基于给定词组成的语义信息，下一个词后验分布的特性需要和食物相关。因而有：
而这个分布特性需要模型学习出来，并在 $\mathcal P_{model}$ 中体现。
$\mathcal P(x_4^{(j)} \mid x_1^{(i)},x_2^{(i)},x_3^{(i)}) > \mathcal P(x_4^{(k)} \mid x_1^{(i)},x_2^{(i)},x_3^{(i)})$
从而不断执行这个操作，从而将后续的文本信息补全出来。
需要模型的性能优秀。在每一次后验的采样过程中出现误差，误差会随着采样过程进行累积。最终可能出现‘生成的文本信息’与期望结果相差很远。
判断常见的文本序列：
例如如下两个文本序列：
$\begin{cases} \mathcal S_1 = \underbrace{\text{to recognize a speech}}_{去识别一段语音} \\ \mathcal S_2 = \underbrace{\text{to wreck a nice beach}}_{去破坏一个美丽的海滩} \end{cases}$
这两段序列的读音非常相似。如果使用一个语音转换文字模型得到 $\mathcal P(\mathcal S_1 \mid *)$ 和 $\mathcal P(\mathcal S_2 \mid *)$ 的结果都不低，此时我们需要去判别哪个文本序列更加常见，或者更加符合当前语义环境。
这里的 $*$ 表示语音特征，上面的英语是翻译软件翻译的，老美可能不会这么说话~

统计算法——使用计数进行建模

场景构建：
假设要求的文本序列长度 $= 2$ ，给定包含 $n$ 个文本的数据集 $\mathcal D$ ，想要求解：某文本 $x$ 和相邻文本 $x^{'}$ 构成的序列在 $\mathcal D$ 中的出现次数。
这里的文本 $x, x^{'}$ 可能不仅是一个具体的词，它是一个随机变量。

这个序列的联合概率分布可表示为：
其中 $n (x)$ 表示满足随机变量 $x$ 条件的文本的数量;同理， $n (x, x^{'})$ 表示满足'随机变量 $x, x^{'}$ 先后出现'条件的序列的数量。
$\mathcal P(x,x') = \mathcal P(x) \cdot \mathcal P(x' \mid x) = \frac{n(x)}{n} \cdot \frac{n(x,x')}{n(x)}$
同理，我们可以调整序列长度，从而获取满足条件序列的联合概率分布：
文本长度 $= 3$ 的情况。
$\begin{aligned} \mathcal P(x,x',x'') & = \mathcal P(x) \cdot \mathcal P(x' \mid x) \cdot \mathcal P(x'' \mid x,x') & = \frac{n(x)}{n} \cdot \frac{n(x,x')}{n(x)} \cdot \frac{n(x,x',x'')}{n(x,x')} \end{aligned}$

这种做法显然过于简单：
一旦 序列过长，并且数据集 $\mathcal D$ 的文本量不够多的情况下，导致序列 $(x, x^{'}, x^{''})$ 在数据集 $\mathcal D$ 内出现出现的次数极少甚至没有出现过—— $\mathcal P(x,x',x'') \Rightarrow 0$ 。这种做法自然是不准确的。

统计算法——基于马尔可夫假设的 $\text{N-Gram}$ 语言模型

针对序列过长产生的情况，可以使用马尔可夫假设缓解该问题：
$\mathcal P(x_t \mid x_{t-1},x_{t-2},\cdots,x_1) = \mathcal P(x_t \mid \underbrace{x_{t-1},x_{t-2},\cdots,x_{t - \tau}}_{\tau 个随机变量})$
$\text{1-Gram}$ 语言模型：某随机变量 $x_t$ 的条件概率结果仅和 $x_t$ 自身相关。这意味着被作为条件约束的随机变量数量 $\tau=0$ 。对应序列的联合概率分布表示为如下形式：
相当于随机变量之间‘相互独立’。
$\begin{aligned} \mathcal P(x_1,x_2,\cdots,x_{\mathcal T}) & = \mathcal P(x_1) \cdot \prod_{t=2}^{\mathcal T} \mathcal P(x_t \mid x_{t-1},\cdots,x_1) \\ & = \prod_{t=1}^{\mathcal T} \mathcal P(x_t) \\ & = \prod_{t=1}^{\mathcal T} \frac{n(x_t)}{n} \end{aligned}$
同理， $\text{N-Gram}$ 语言模型表示：某随机变量 $x_t$ 的条件概率结果不仅与自身相关，并且与基于顺序相邻的 $N - 1$ 个随机变量相关。此时的 $\tau=N-1$ 。这里以 $\text{3-Gram}$ 语言模型为例，其联合概率分布表示如下：
很明显，前两个随机变量的条件数量不足。
$\begin{aligned} \mathcal P(x_1,x_2,\cdots,x_{\mathcal T}) & = \mathcal P(x_1) \cdot \prod_{t=2}^{\mathcal T} \mathcal P(x_t \mid x_{t-1},\cdots,x_1) \\ & = \mathcal P(x_1)\cdot \mathcal P(x_2 \mid x_1) \cdot \prod_{t=3}^{\mathcal T} \mathcal P(x_t \mid x_{t-1},x_{t-2}) \\ & = \frac{n(x_1)}{n} \cdot \frac{n(x_1,x_2)}{n(x_1)} \cdot \prod_{t=3}^{\mathcal T} \frac{n(x_{t},x_{t-1},x_{t-2})}{n(x_{t-1},x_{t-2})} \end{aligned}$
$\text{N-Gram}$ 语言模型的优势在于：基于该假设，我们能够处理较长的序列(序列长度和马尔可夫假设关系不大，我们仅观察局部的序列信息)。并且随着局部范围内 $N$ 越大，它的统计精度就越高。

相反， $\text{N-Gram}$ 的劣势就在于 $N$ 上面：

以 $\text{2-Gram}$ 语言模型为例，如果数据集 $\mathcal D$ 对应的字典(对数据集 $\mathcal D$ 所有词语进行收集)中包含 $1, 000$ 个词，在 $\text{2-Gram}$ 条件下，一共包含 $\times 1,000 = 1,000,000$ 种序列组合。
这个序列组合是随机组合，并且是有序的。例如 $x_i,x_j)$ 与 $x_j,x_i)$ 均算作不同的序列组合。

当然，上述的随机组合必然不会全部出现在 $\mathcal D$ 中，仅需要统计各组合出现的频数，在计算 $\mathcal P(x_1,x_2,\cdots,x_{\mathcal T})$ 中，仅需要查表即可。
这里需要强调的是：相比于计数建模， $\text{N-Gram}$ 语言模型的时间复杂度有明显提升。我们不需要将 $\mathcal D$ 执行一次又一次的遍历，仅需要查找‘组合表’中对应结果的频数即可。
上述是 $\text{2-Gram}$ 的情况。那么 $N$ 的数值较大时，上述组合数量有 $1,000^N$ 种，这个指数关系会导致内存的负担。
它的‘空间复杂度’是指数级的。