（二）背景知识 -- 2 N-gram模型

最新推荐文章于 2021-10-11 17:46:44 发布

Fiona-Dong

最新推荐文章于 2021-10-11 17:46:44 发布

阅读量649

点赞数

分类专栏： Word2Vec-知其然知其所以然

版权

8 篇文章 3 订阅

订阅专栏

2. N-gram模型

在自然语言处理中，统计语言模型（Statistic Language Model）是很重要的一环。简单来说，统计语言模型就是计算一个句子的概率的概率模型，即，语料库中出现这个句子的概率。

假设 $W=w_1^T:=(w_1, w_2, ..., w_T)$ 表示由 $T$ 个词 $w_1, w_2, ..., w_T$ 按照顺序构成的一个句子，则该句子的概率模型就是 $w_1, w_2, ..., w_T$ 的联合概率，即：

$p(W)=p(w_1^T)=p(w_1, w_2, ..., w_T) \\（利用Bayes链式分解）\\ =p(w_1)·p(w_2|w_1)·p(w_3|w_1^2)···p(w_T|w_1^{T-1})$

其中， $p(w_1)$ ， $p(w_2|w_1)$ ， $p(w_3|w_1^2)$ ··· $p(w_T|w_1^{T-1})$ 就是语言模型的参数。
已知这些参数，即可得到句子的出现概率。
注： $p(w_3|w_1^2)=p(w_3|w_2,w_1)$

问题在于，当前面给定的单词序列很长时，无法计算这个单词的确切概率，即 $p(w_T|w_1^{T-1})$ 。

因此，需要借助N-gram模型来进行简化。

考虑 $p(w_k|w_1^{k-1}) (k>1)$ 的近似计算，利用 $B a y e s$ 公式，有：

$p(w_k|w_1^{k-1}) =\frac{p(w_1^k)}{p(w_1^{k-1})} \\根据大数定理，当语料库够大时\\ \approx \frac{count(w_1^k)}{count(w_1^{k-1})}$

其中， $p(w_1^k)$ 表示句子中从第 $1$ 个到第 $k$ 个的词构成的词串， $count(w_1^k)$ 表示词串 $w_1^k$ 在语料中出现的次数。

由此可见，一个词出现的概率与它前面所有的词都相关。

假设这个词只与它前面 $n - 1$ 个词相关（ $n - 1$ 阶 $M a r k o v$ 假设），那么，上述公式可以简化为：

$p(w_k|w_1^{k-1}) \approx p(w_k|w_{k-n+1}^{k-1})\\ \approx \frac{count(w_1^k)}{count(w_{k-n+1}^{k-1})}$

对于参数的选取，可以从以下两个角度进行考虑：

(1) 计算复杂度： $n$ 越大，计算复杂度越大（指数级增长）。
(2) 模型效果：理论上 $n$ 越大越好，但 $n$ 越大，模型效果的提升幅度越小。

因此，实际常选用 $n = 3$ 。

此外，还需要考虑到「平滑化」的问题。
因为假如词串在统计时计数为0，即 $count(w_{k-n+1}^{k-1})=0$ ，并不能认为 $p(w_k|w_1^{k-1})=0$ ，否则会导致连乘时，整个词串的概率都为0。

关注

专栏目录