1 中文分词方法的演变
可以利用语言模型进行自然语言处理,而这些语言模型是建立在词的基础上的,因为词是表达语义的最小单位。
分词方法:查字典,北航梁南元教授提出。可以解决七八成以上的问题。
20世纪80年代,哈工大王晓龙博士将查字典理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。
不足之处:
遇到有二义性的分割时就无能为力了。
并非所有的最长匹配都一定是正确的。
1990年,清华郭进博士用统计语言模型成功解决了分词的二义性问题,将汉语的错误率降低了一个数量级。
最好的一种分词方法应该保证分完词后这个句子出现的概率最大。
实用的技巧,看成是一个动态规划问题,并利用维特比算法快速地找到最佳分词。
孙茂松博士解决了没有字典时的分词问题。
吴德凯教授时较早讲中文分词方法应用于英文词组的分割,并且将英文词组和中文词组在机器翻译时对应起来。
一般来讲,应用不同,汉语分词的颗粒度大小就应该不同。在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是分成两个词。因此,不同的应用有不同的分词系统。
中文分词方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就很不清楚了。中文分词的方法可以帮助判别英语单词的边界。
关于分词有两点:
首先,只要采用基本的统计语言模型,加上一些业界熟知的技巧就能得到很好的分词结果,不值得再去花很大的精力去研究,因为即使能够进一步提高准确率,提升的空间也很有限。
第二,英语和主要西方语言原本没有分词问题的,除了要做文法分析找词组。手写体识别中。因为在识别手写体时,单词之间的空格就很不清楚了。中文分词的方法可以帮助判别英语单词的边界。
2 如何衡量分词的结果
2.1 分词的一致性
不同的人对词的切分看法上的差异性远比我们想象的要大很多。
当统计语言模型被广泛应用后,不同的分词器产生的结果的差异性要远远小于不同人之间看法的差异。
2.2 词的颗粒度和层次
人工分词产不一致性的原因主要在于人们对词的颗粒度认识问题。
针对不同的应用,可以构造不同的分类器,但是这样做不仅浪费而且也美必要。最好的做法是让一个分词器同时支持不同层次词的切分。
首先需要一个基本词表和一个复合词表。
接下来需要根据基本词表和复合词表各建立一个语言模型,比如L1和L2。
然后根据基本词表和语言模型L1对句子进行分词,就得到小颗粒度的分词结果。
最后,再此基础上,在用复合词表和语言模型L2进行第二次分词。
分词的准确性:
分词的不一致性可以分为错误和颗粒度不一致两种。
错误分为越界型错误和覆盖型错误。