统计语言模型，平滑方法，困惑度

muyuu

已于 2022-02-11 22:45:03 修改

阅读量607

点赞数

分类专栏：自然语言处理文章标签：算法

于 2021-08-30 11:10:27 首次发布

本文链接：https://blog.csdn.net/muyuu/article/details/119978021

版权

自然语言处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

统计语言模型

统计语言模型的意义是通过计算一个语句出现的概率来判断它合乎语法的可能性，记一个序列 $(w_1,w_2,\cdots, w_n)$ ，那么：
$\begin{aligned} P(S) &= P(w_1,w_2,\cdots, w_n)\\ &= P(w_1)\cdot P(w_2|w_1) \cdot P(w_3|w_1,w_2) \cdots P(w_n|w_1,w_2,\cdots, w_{n-1}) \end{aligned}$
但是实际使用中P(w_n|w_1,w_2,\cdots, w_{n-1})的计算复杂度太高，而且一般越远的词对当前词的影响越小，所以为了简化模型，我们一般使用马尔科夫假设:任一词 $w_i$ 出现的概率只与它前面的一个词 $w_{i-1}$ 有关：
$P(w_1) \cdot P(w_1|w_2) \cdots P(w_n|w_{n-1})$
上述公式对应的语言模型叫作二元模型,使用的是一阶马尔科夫假设。根据大数定律，只要统计量足够，上式就可以通过统计频数计算：
$P(w_i|w_{i-1}) = \frac{P(w_{i-1},w_i)}{P(w_{i-1})} = \frac{\#(w_{i-1},w_i)}{\#(w_{i-1})}$
实际当时，常用的除了上述二元模型还有三元模型：
$P(w_1) \cdot P(w_1|w_2) \cdots P(w_n|w_{n-2},w_{n-1})$

因为N元模型的空间复杂度是 $O(|V|^N)$ ，其中 $∣ V ∣$ 是词典大小，一般有几万到几十万;而使用N元模型的时间复杂度是 $O(|V|^{N-1})$ ，因此N不能特别大。而且当N从1到2，再从2到3，模型的效果上升明显；但再往后，效果提升就不那么明显了，但资源的耗费却增加得非常快，所以一般很少使用四元以上的模型。

零概率问题和平滑方法

现在假如我们要训练一个三元中文模型，汉语词汇量大约是20万，那么这个三元模型将会有 $|V|^3 = 8 \times 10^{15}$ 量级的参数。而假如从互联网上刨去垃圾，有100亿个有意义的中文网页，每个网页平均有1000个词。依然也只有 $10^{13}$ 量级的训练数据。因此，会有很多词的统计词频直接是零，但这并不意味着这些词出现的概率就真的是零。这种情况称之为“模型不平滑”，也叫零概率问题。解决上述问题常用的几种方法有：

拉普拉斯平滑

Add‐One 平滑

假定语料库的大小为N，词典的大小为V：
$\begin{aligned} P(w_i) &= \frac{\#(w_i)+1}{N+V}\\ P(w_i|w_{i-1}) &= \frac{\#(w_i,w_{i-1})+1}{\#(w_{i-1})+V}\\ P(w_{i}|w_{i-1},w_{i-2}) &= \frac{\#(w_i,w_{i-1},w_{i-2})+1}{\#(w_{i-1},w_{i-2})+C_{V}^2} \end{aligned}$

Add‐K 平滑

$\begin{aligned} P(w_i) &= \frac{\#(w_i)+K}{N+KV}\\ P(w_i|w_{i-1}) &= \frac{\#(w_i,w_{i-1})+K}{\#(w_{i-1})+KV}\\ P(w_{i}|w_{i-1},w_{i-2}) &= \frac{\#(w_i,w_{i-1},w_{i-2})+K}{\#(w_{i-1},w_{i-2})+KC_{V}^2} \end{aligned}$
其中 $K$ 是可以使用优化的方法来寻找的参数。

插值平滑

上述拉普拉斯平滑的一个问题是：只要是未见词，估算的概率都是一样的（特别是对于高阶估计，更容易出现未见词），但这其实是不太合理的，因为即使是未见词，概率也会有高低之分。所以插值平滑的原理就是利用低阶统计量做插值，这样的话即使一些词的高阶统计量为0，也可以用低阶统计量去补充：
$\begin{aligned} &P(w_i) = \lambda \hat{P}(w_i) + (1-\lambda) \frac{1}{N}\\ &P(w_i|w_{i-1}) = \lambda \hat{P}(w_i|w_{i-1}) + (1-\lambda) P(w_i)\\ &P(w_i|w_{i-1},w_{i-2}) = \lambda_1 \hat{P}(w_i|w_{i-1},w_{i-2}) + \lambda_2 P(w_i|w_{i-1}) + \lambda_3P(w_i) , \quad \lambda_1 + \lambda_2 + \lambda_3 =1 \end{aligned}$
其中 $\hat{P}表示概率值直接由频度估计$ 。

古德-图灵估计

古德-图灵估计的原理是：

对于可靠的统计数据，我们选择相信
对于不可信的统计数据，我们对它打一定折扣
对于未看见的数据，把上述折扣出来的一小部分概率赋予给它

假定在语料库中出现r次的词有 $N_r$ 个，特别的，未出现的词数量为 $N_0$ 那么有：
$\sum_r rN_r$
出现 $r$ 次的词的相对频度就是 $\frac{r}{N}$ 。当 $r$ 比较大的时候，我们认为此时的统计数据是可靠的，那么就可以以这个相对频度作为这些词的概率估计。

但是当 $r$ 比较小时，我们认为统计数据不可靠，也就是说出现 $r$ 次的那些词在计算它们的概率时要使用一个小一点的数，记为 $d_r$ :
$d_r = (r+1) \cdot N_{r+1}/N_r$
那么显然有 $\sum_r d_r\cdot N_r = N$ 。一般来说，语料库中出现r次的词数量 $N_r$ 与 $r$ 满足如下关系：
在这里插入图片描述
可以看出，当 $r$ 比较小时， $N_r$ 下降得很快，满足 $\frac{N_{r+1}}{N_r} < \frac{r}{r+1}$ ，因此 $d_r < r$ ，而 $d_0 > 0$ 。这样就给未见词赋予了一个很小的非零值，从而解决了零概率问题。

Katz平滑

Katz平滑利用了古德-图灵估计对频数小于阈值的概率进行削减，然后削减出来的总量，按照频数为零的项的低阶gram的频度来分配：

$P(w_i)=\left\{ \begin{aligned} & \frac{r}{N} & if \ r \geq T \\ &\frac{d_r}{ N} & \qquad if \ 0 < r < T \\ &\frac{\text{remain}}{N} & if \ r=0 \end{aligned} \right.$
其中 $\text{remain} = 1- \sum_{wi \ seen}P(w_i)$ 。

对于二元模型，同样有：
$P(w_i|w_{i-1})=\left\{ \begin{aligned} & \frac{r}{\#(w_{i-1})} & if \ r \geq T \\ &\frac{d_r}{\#(w_{i-1})} & \qquad if \ 0 < r < T \\ &\frac{\text{remain}}{\sum_{w_i \ unseen}f(w_i)}f(w_i) & if \ r=0 \end{aligned} \right.$
其中 $\text{remain} = 1- \sum_{wi \ seen}P(w_i|w_{i-1})$ ， $f(w_i)$ 是频度。上面第二项的计算方法是：

最终折扣量与Good-Turing估计预测的减值量成正比例
全局二元语法分布中被折扣的计数总量等于根据Good-Turing估计应该分配给次数为零的二元语法的总数

记折扣量为 $\mu_r$ ，所以有公式:
$\mu_r = \rho (1- \frac{(r+1)\cdot N_{r+1}}{r\cdot N_r})$
又因为Good-Turing估计分配给次数为零的二元语法的总数为 $N_1$ (why?):
所以有 $\sum_{k=1}^T N_k (1-\mu_r) r = N_1$
上式的解即为：
$\mu_r = \frac{\frac{(r+1)\cdot N_{r+1}}{r\cdot N} - \frac{(T+1)N_{T+1}}{N_1}}{1 - \frac{(T+1)N_{T+1}}{N_1}}$
因此
$d_r = \mu_r \cdot r = \frac{\frac{(r+1)\cdot N_{r+1}}{ N} - r\cdot \frac{(T+1)N_{T+1}}{N_1}}{1 - \frac{(T+1)N_{T+1}}{N_1}}$