语言模型总结

最新推荐文章于 2024-08-26 14:09:34 发布

学者(cloudea)

最新推荐文章于 2024-08-26 14:09:34 发布

阅读量1k

点赞数 1

分类专栏：算法自然语言处理文章标签：概率论自然语言处理机器学习

本文链接：https://blog.csdn.net/u013749051/article/details/120797487

版权

算法同时被 2 个专栏收录

48 篇文章 2 订阅

订阅专栏

自然语言处理

4 篇文章 0 订阅

订阅专栏

本文深入解析了语言模型的基本概念，包括统计语言模型的原理，如何通过n-gram和独立性假设简化计算，以及各种改进模型如缓存语言模型、混合方法模型和神经网络模型。同时介绍了语言模型在分词、依存句法等领域的应用。

摘要由CSDN通过智能技术生成

语言模型概述

语言模型是一个用于判断句子出现概率的数学模型。假设我们有一个句子 $s=(w_1,w_2,...,w_m)$ 。其中 $w_i$ 为句子中的第i个词语。根据古典概型，那么语言模型可表示为：
$\frac{人类说过的所有句子中s的个数}{人类说过的所有句子个数}$

统计语言模型

显然，上述语言模型公式中，分子和分母我们都不可能统计得到。但是可以换一种思路去计算。假设把每个词当成一个随机变量。这样，句子出现的概率分布则变成了这些词出现概率的联合概率分布。即
$P(s)=P(w_1,w_2,...,w_m)$
根据乘法公式
$\begin{aligned} P(w_1,w_2,...,w_m)&=P(w_1)P(w_2...w_m|w_1) \\ &= P(w_1)P(w_2|w_1)P(w_3...w_m|w_1w_2) \\ &= P(w_1)P(w_2|w_1)P(w_3|w_1w_2)P(w_4...w_m|w_1w_2w_3) \\ & ... \\ &= p(w_1) \prod_{i=2}^{m}p(w_i|w_1w_2...w_{i-1}) \end{aligned}$

实际上精确计算上式也是不实际的。因为 $p(w_1)$ 和 $p(w_i|w_1w_2...w_{i-1})$ 理论上也与人类历史上说过的词相关。但是我们通常会通过统计语料里面的词出现的频率来近似估计。这就是统计语言模型。即使用统计的方法计算 $P (s)$ 的过程。

模型简化

不难发现，对统计语言模型的计算需要计算大量条件概率 $p(w_i|w_1w_2...w_{i-1})$ 。它的含义是在前i-1个词出现的情况下，第i个词出现的概率。根据条件概率计算公式有: $p(w_i|w_1w_2...w_{i-1})=p(w_1w_2...w_{i}) /p(w_1w_2...w_{i-1})$ 。当 $i$ 比较大的时候，无论是 $w_1w_2...w_{i}$ 还是 $w_1w_2...w_{i-1}$ 在语料集上都很少出现甚至不出现。所以很多条件概率的值为0。

例如计算 $p (在 ∣ 种果科雪园)$ 。也许整个语料集中"种果科雪园"从未出现。所以结果为0。这就是数据稀疏问题。

如果把每一个概率 $p(w_1w_2...w_{i})$ 当作一个模型参数。那么，完整的条件概率计算参数数量将很多。如果只考虑10000个词，即词典大小为10000，那么考虑最大长度 $m = 20$ 的句子。则参数数量为 $10000^{20} =10^{80}$ 。如果一个参数使用4字节存储。光存储参数就得使用 $\times 10^{68}$ T。实际上完整模型根本无法使用了。因此有必要对原模型进行简化。

一般地，我们会假设第 $i$ 个词出现的概率，只与其前 $n - 1$ 个词语相关。n是一个根据实际需要而设的超参数。这样就为模型引入了独立性假设。这个假设并不合理，但是为了简化模型也只能先这么做。同时为了保证条件概率 $i = 1$ 时有意义，同时又为了保证句子内所有字符串的概率和为1。即 $\sum_sp(x)=1$ 。可在句子首尾增加两个标志。分别是：

BOS 表示 begin of sentence。EOS 表示 end of sentence。那么句子可被重新表达为
$s=(<BOS>, w_1,w_2,...,w_m,<EOS>)$ 则原语言模型的 $P (s)$ 可重新写为：
$\prod_{i=1}^{m+1}p(w_i|w_{i-n + 1}...w_{i-1})$
当 $i = 1$ 时，会出现 $w_0$ 。即表示<BOS>。注意这里并不会去计算P(<BOS>)。因为P(<BOS>)始终为1。这就是n-gram语言模型也称N元语言模型。但这里加<EOS>只是为了表示句子已经结束。个人理解：如果判断非完整句子的概率，则只要加到m。

为了求取模型参数，可以使用最大似然进行参数估计。过程略复杂，这里空白的地方太小，写不下，略。最后的结果如下：
$P(w_i|w_{i-n+1}...w_{i-1}) = \frac{c(w_{i-n+1}...w_i)}{\sum_wc(w_{i-n+1}...w_{i-1}w)}$

其中 $c(\cdot)$ 函数表示统计词序列在语料集中出现的次数。

我们可以考虑一个二元语言模型，考虑词典大小为10000，考虑最大词序列长度m=20。则参数数量为
$10000^2=10^8$ 。如果一个参数使用4字节存储，将占用空间为 $100 M$ 。之就大大减少了参数数量。同时二元语言模型中词序列 $w_iw_{i-1}$ 在语料集中大量存在，部分解决了稀疏的问题。

概率平滑

上面提到二无语言模型部分解决了稀疏的问题，是因为如果词典比较大，词典中的非常用词在语料集中可能不出现。也会有很多的数据稀疏。如果词典中的某个词在语料集中没有出现，则 $p(w_iw_{i-1})=0$ 。计算长序列的句子的概率时，如果包含这个词，也会导致 $P(s)=\prod_{i=1}^{m+1}p(w_i|w_{i-1})=0$ 。

为了防止这种零概率的情况，因此要对参数进行平滑操作。
基本约束： $\sum_{w_i}p(w_i|w_1,w_2,...,w_{i-1})=1$
最经典是就是加1平滑。基本思想是为每种情况的统计值加一。计算过程如下。
$\begin{aligned} p(w_i|w_{i-1}) &= \frac{1+c(w_{i-1}w_i)}{\sum_{w_i}[1+c(w_{i-1}w_i)]} \\ &= \frac{1+c(w_{i-1}w_i)}{|V| + \sum_{w_i}[c(w_{i-1}w_i)]} \end{aligned}$
其中|V|为语料的词汇量，即词典大小。

这种操作实际并没有数学上的解释。仅仅是为了解决零概率问题。

自适应语言模型

研究者还提出了许多新的语言模型。

基于缓存语言模型
这种语言模型主要是考虑了n-gram语言模型简化后缺少历史信息的问题。语言模型通过n-gram语言模型和历史信息线性插值求得。公式如下。
$p(w_i|w_1...w_{i-1})=\lambda p_{cache}(w_i|w_1...w_{i-1})+(1-\lambda)p_{n-gram}(w_i|w_{i-n+1}...w_{i-1})$
$p_{cache}(w_i|w_1...w_{i-1})=\frac{1}{K}\sum_{j=i-K}^{i-1}I_{\{w_j=w_i\}}$

其中 $\lambda$ 是超参数。 $I$ 是指示器函数，如果 $w_j=w_i$ 情况出现过，则为1，否则为0。但是这种方法没有考虑词的距离，下面是改进后的版本：
$p_{cache}(w_i|w_1...w_{i-1})=\beta\sum_{j=i-K}^{i-1}I_{\{w_j=w_i\}}e^{-\alpha(i-j)}$
其中alpha是衰减率，beta是归一化常数。

基于混合方法的语言模型

解决模型训练自不同领域语料，但测试语料是同一个语料的问题。为了在同一领域获取最佳性能。提出此方法。方法首先将模型分成 $n$ 个子模型 $M_j$ 。一个子模型就是一个主题或领域，然后由如下公式线性插值
$p(w_i|w_1...w_{i-1})=\sum_{j=1}^{n}\lambda_jp_{M_j}(w_i|w_1...w_{i-1})$
其中参数 $\lambda$ 可通过EM算法学习得到。

基于最大熵的语言模型

基本思想是通过结合不同信息源构建一个语言模型。
$p(w_i|w_1...w_{i-1})=\frac{\exp(\lambda_if(w_i,w_1...w_{n-1}))}{\sum_{w_i}\exp(\lambda_if(w_i,w_1...w_{n-1}))}$
例如 $f$ 可以是一个二无语言模型： $f(w_i,w_{i-1})=P(w_i|w_{i-1})$