N-gram统计语言模型(总结)

最新推荐文章于 2024-09-15 15:01:59 发布

weixin_33726943

最新推荐文章于 2024-09-15 15:01:59 发布

阅读量430

点赞数

文章标签：人工智能

N-gram统计语言模型

1.统计语言模型

自然语言从它产生開始，逐渐演变成一种上下文相关的信息表达和传递的方式。因此让计算机处理自然语言。一个主要的问题就是为自然语言这样的上下文相关特性建立数学模型。

这个数学模型就是自然语言处理中常说的

统计语言模型，它是今天全部自然语言处理的基础，而且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。

2.N-Gram

N-Gram是大词汇连续语音识别中经常使用的一种语言模型。对中文而言，我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息，在须要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时。能够计算出具有最大概率的句子，从而实现到汉字的自己主动转换。无需用户手动选择。避开了很多汉字相应一个同样的拼音(或笔划串，或数字串)的重码问题。

搜狗拼音和微软拼音的主要思想就是N-gram模型的，只是在里面多增加了一些语言学规则而已。

3.用数学的方法描写叙述语言规律

美联储主席本.伯克南昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。（这句话意非常通顺，意思也非常明确）

改变一些词的顺序。或者替换掉一些词，这句话变成：

本.伯克南美联储主席昨天7000亿美元的救助资金告诉媒体将借给银行、保险公司和汽车公司上百家。（意思就含混了，尽管多少还是能猜到一点）。

可是假设再换成：

联主美储席本.伯诉体南将借天的救克告媒助资金70元亿00美元给上百百百家银保行、汽车保险公司公司和。（基本上读者就不知所云了）。

20世纪70年代之前，科学家们试图推断这个文字序列是否合乎文法、含义是否正确等。但这条路走不动。贾里尼克从另外一个角度来看待这个问题。用一个简单的统计语言模型非常美丽的搞定了它。贾里尼克的出发点非常easy：一个句子是否合理。就看看它的可能性大小怎样。至于可能性就用概率来衡量。

第一个句子出现的概率最大，因此。第一个句子最有可能句子结构合理。这种方法更普通而严格的描写叙述是：假定S表示某一个有意义的句子，由一连串特定顺序排列的词w1,w2,w3,...,wn组成。这里n是句子的长度。如今，我想知道S在文本中（语料库）出现的可能性，也就是数学上所说的S的概率P(S)。我们须要一个模型来估算概率。既然S=w1,w2,w3,...,wn。那么最好还是把P(S)展开表示： P(S)=P(w1,w2,w3,...,wn)

利用条件概率的公式。S这个序列出现的概率等于每个词出现的条件概率相乘,于是P(w1,...,wn)展开为：、

P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1)

当中P(w1)表示第一个词w1出现的概率；P(w2|w1)是已知第一个词的前提下。第二个词出现的概率；以此类推，词wn出现的概率取决于它前面全部的词。

补充知识：

条件概率、贝叶斯公式的具体解说

可是这样的方法存在两个致命的缺陷：一个缺陷是參数空间过大(条件概率P(wn|w1,w2,...,wn-1)的可能性太多，无法估算)，不可能有用化。另外一个缺陷是数据稀疏严重。

数据稀疏的解释：如果词表中有20000个词，如果是bigram model(二元模型)那么可能的2-gram就有400000000个，如果是trigram(3元模型)，那么可能的3-gram就有8000000000000个！

那么对于当中的非常多词对的组合，在语料库中都没有出现，依据最大似然估

计得到的概率将会是0。这会造成非常大的麻烦，在算句子的概率时一旦当中的某项为0。那么整个句子的概率就会为0，最后的结果是，我们的模型仅仅能算可怜兮兮的几个句子，而大部分的句子算得的概率是0. 因此，我们要进行数据平滑（data Smoothing），数据平滑的目的有两个：一个是使全部的N-gram概率之和为1，使全部的N-gram概率都不为0,有关数据平滑处理的方法能够參考《数学之美》第33页的内容。