kenlm语言模型介绍

最新推荐文章于 2024-03-14 11:35:12 发布

张海玲

最新推荐文章于 2024-03-14 11:35:12 发布

阅读量2.6k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_42014622/article/details/99691884

版权

自然语言处理专栏收录该内容

11 篇文章 0 订阅

订阅专栏

语言模型

计算 $P\left(w_{1}, w_{2}, \dots, w_{n}\right)$

利用链式法则： $P (A, B, C) = P (A) P (B ∣ A) P (C ∣ A, B)$

$P\left(w_{1}, w_{2}, \dots, w_{n}\right)=P\left(w_{1}\right) P\left(w_{2} | w_{1}\right) \dots P\left(w_{n} | w_{1}, \dots, w_{n-1}\right)$

常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。

kenlm语言模型介绍

kenlm是一个C++编写的语言模型工具，具有速度快、占用内存小的特点，也提供了Python接口。

步骤：

（1）增加< s>和< /s >标记符，表示句子的开头和结尾

（2）把每个词映射到唯一的数字id

（3）Counting（原始计数）。也就是把相同的字合并，然后排序

（4）Adjusting（调整计数）。其基本思想是对于那些lower-gram，我们不关心其出现的次数，而是关心其作为novel continuation（接续词）的可能性。比如“York”，其在语料中出现的次数一般会比较多，因为“New York”是很高频的词。但别的词把“york”作为接续词的可能性就较低，也就是说它前面的词只有“new”等少数几类词，所以应该给它较低的计数。

$a\left(w_{1}^{n}\right)=\left\{\begin{array}{l}{c\left(w_{1}^{n}\right), \text { if } n=N \text { or } w_{1}=<s>} \\ {\left|v : c\left(v w_{1}^{n}\right)>0\right|, \text { otherwise }}\end{array}\right.$

其中，

$w_{1}^{n}$ 表示某个n-gram，比如n=2时，那么 $w_{1}^{2}$ 就表示某个2-gram；（eg：< s>我、我们）

$c\left(w_{1}^{n}\right)$ 表示w_{1}^{n} 的原始计数；

$a\left(w_{1}^{n}\right)$ 表示由原始计数调整后的计数。

（5）Discounting。基本思想是把经常出现的一些N-Gram的概率分一些出来给没有出现的N-gram，也就是将经常出现的N-Gram次数减去(discount)一部分。这样做的道理在于，对于出现次数比较多的计数我们其实已经得到了一个相对比较好的估计，那么当我们从这个计数值中减去一个较小的数值d后应该影响不大。

$D_{n}(k)=k-\frac{(k+1) t_{n, 1} t_{n, k+1}}{\left(t_{n, 1}+2 t_{n, 2}\right) t_{n, k}}$

式中：

-$ k \in[1,3]$；对于k为0的情况, D_{n}(0)=0；对于k大于3的情况，D_{n}(k)=D_{n}(3) ；

$\in[1,N]$ ；比如我们采用2-gram，那么N=2，n=[1,2]；

$t_{n, k}$ 表示出现了k次的n-gram的个数

$t_{n, k}=\left|\left\{w_{1}^{n} : a\left(w_{1}^{n}\right)=k\right\}\right|$

(6)Normalization标准化

① 计算n-gram的概率，该概率称之为pseudo probability，也就是说它不是最终的概率，但对于计算最终概率是有用的。

$u\left(w_{n} | w_{1}^{n-1}\right)=\frac{a\left(w_{1}^{n}\right)-D_{n}\left(a\left(w_{1}^{n}\right)\right)}{\sum_{x} a\left(w_{1}^{n-1} x\right)}$

② 计算回退权重，也称为back-off weight, 它衡量的是某个词后面能接不同词的能力。

比如，考虑 spite 和 constant 的 bigram，在语料中，两个 bigram 都出现了 993 次，以 spite 开始的 bigram 只有 9 种，大多数情况下 spite 后面跟着 of(979 次)，因为 in spite of 是常见的表达，而跟在 constant 后的单词有 415 种，所以我们更有可能接到一个跟在 constant 后面的bigram，因此back-off(constant)>back-off(spite)。

$b\left(w_{1}^{n-1}\right)=\frac{\sum_{i=1}^{3} D_{n}(i)\left|\left\{x : a\left(w_{1}^{n-1} x\right)=i\right\}\right|}{\sum_{x} a\left(w_{1}^{n-1} x\right)}$

（7）Interpolation内插

例:如果在某个语料中都没出现“多的“和”多敛“，c(多的)和c(多敛) 都为0，那么在传统的n-gram中，p(的∣多)=p(敛∣ 多)。而这个概率我们直观上来看是错误的，p(的∣多)应该比p(敛∣多)高很多。要实现这个，我们就希望把 bigram 和 unigram 结合起来，因为“的”比“敛”常见的多，就能保证p(的∣多)>p(敛∣多)。

$p\left(w_{n} | w_{1}^{n-1}\right)=u\left(w_{n} | w_{1}^{n-1}\right)+b\left(w_{1}^{n-1}\right) p\left(w_{n} | w_{2}^{n-1}\right)$