数学之美
目录
1. 统计语言模型
假设一个有意义的句子 S 由词 w1,w2,...,wn 组成,则句子 S 出现的概率可以表示为:
从上式看出,一个词出现的概率取决于前面所有的词,然而从计算上来看,各种可能性太多,无法实现,所以可以假设一个词出现的概率只与其前一个词有关(即马尔科夫假设~ 注意,该假设为何有效?),上式可以进行进一步得到:
计算 P(wn|wn−1) 可以使用贝叶斯公式 P(wn)=P(wn,wn−1)P(wn−1) ,利用统计语言模型可以先得到在统计的文本中 (wn,wn−1)词对 出现了多少次,以及 wn−1 出现多少次,两个次数之比即可得到结果。
统计语言模型比任何已知的借助某种规则的方法都有效!
贝叶斯公式: P(A|B)=P(A,B)P(B),P(A,B)=P(B|A)P(A)
2. 谈谈中文分词
统计语言模型是建立在词的基础之上的,对于中日韩等语言,首先应该进行分词。如“中国航天官员应邀到美国与太空总署官员开会”。分成一穿词:中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。
我们可以想到的最简单的分词方式是查字典,从左到右扫描句子,碰到一个词典中有的词就标识出来,遇到复合词(如:“上海大学”)就找词匹配,遇到不认识的字串就分割成单字词。然而这种分词方法缺点是不能处理二义性的分割(如:“发展中国家”被分割成“发展-中国-家”)。
90年代后,清华的郭进博士用统计语言模型成功解决二义性问题,将汉语分割的错误率降低一个数量级。上面一堆都是铺垫,,,重点来了,该方法用数学公式简单概括如下:
假定句子 S 有以下几种分词方法:
- A1,A2,A3,...,Am
- B1,B2,B3,...,Bn
- C1,C2,C3,...,Ck
最好的一种方法应该保证分完词后该句子出现的概率最大,也就是说如果 A1,A2,A3,...,Am 是最好的分词方法,则