数学之美——谈谈分词
- 分词 中国/航天/官员/应邀/到/美国/开会
- 最简单、容易的办法:查字典。其实就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词。
- 当我们从左到右扫描时,先遇到“中”这个字,它本身是一个单字词,我们可以在这里做一个切割,但是,当我们再遇到“国”字时,发现它可以和前面的“中”字组成一个更长的词,因此,我们就将分割点放在“中国”的后面。接下来,我们发现“中国"不会和后面的字组成更长的词,那么这个分割点就最终确定了。
- 查字典法有问题,发展中国家会被切分成发展/中/国家,上海大学/城/书店
- 运用统计语言模型,假设有以下三种分词
A1,A2,A3…,Ak
B1,B2,B3 ,Bm
C1,C2,C3 ,Cn
最好的分词应该保证分词完后这个句子出现的概率最大。P(A1,A2,A3…,Ak)> P(B1,B2,B3 ,Bm)且P(A1,A2,A3…,Ak)> P(C1,C2,C3 ,Cn) - 计算每种可能性下句子的概率,计算量比较大,可以考虑成动态规划问题,并利用维特比算法快速找到最佳分词。
- 语言学家对词语的定义不完全相同,当统计语言模型被广泛应用后,很难讲一个准确率在97%的分词器就一定比另一个准确率为95%的要好,因为这要看它们选用的所谓正确的人工分词的数据是如何得来的。我们甚至只能讲某个分词器和另一个分词器相比,与人工分词结果的吻合度稍微高一点而已。但现在不存在问题
- 应用不同,汉语分词的颗粒大小不同,在机器翻译中,颗粒度应该大一些,联想公司作为整体,很容易找到英语翻译Lenovo,分为两个词,很可能翻译失败。在网页搜索中,颗粒度应该小点,比如“清华大学”这四个字如果作为一个词,在对网页分词后,它是一个整体了,当用户查询“清华”时,是找不到清华大学的,这绝对是有问题的。
- 让一个分词器同时支持不同层次的词的切分。
- 分词的不一致性可以分为错误和颗粒度不一致两种,错误又分成两类,一类是越界型错误,比如把“北京大学生”分成“北京大学/生”。另一类是覆盖型错误,比如把“贾里尼克”拆成了四个字。这些是明显的错误,是改进分词器时要尽可能消除的。接下来是颗粒度的不一致性,人工分词的不一致性大多属于此类。这一类不一致性在衡量分词器的好坏时,可以不作为错误,以免不同人的看法的不同左右了对分词器的度量。
今天也是爱zz的一天哦!