中文分词,就是将一个汉语序列(句子、段落等)切分成一个一个独立的词语(或者根据其他要求,可以切分成词组)。
但是相对其他语言,中文分词具有一些特殊性。比如:①与英语等其他拉丁语语言相比,中文并没有明显的空格为自然边界。②中文的词与词之间的界限划分并不十分清晰,单纯对汉语初学者,都会存在一些划分歧义,对于及其处理更是不消得说。
中文分词对于信息处理,数据挖掘有着重要的意义。作为自然语言处理(NLP)的一个分支,目前为止取得了很大的成效与应用,比如在搜索引擎,中文翻译,手写字体识别等方面。
有关分词的算法可分为以下三大类:
1、基于字符串匹配的分词方法。(又称为机械分词方法)
按照一定的策略将汉字序列与一个相当大的机器字典的词条(词库)进行匹配,匹配成功,即识别一个词。
①正向最大匹配法(左→右)
②逆向最大匹配法(右→左)
③最小切分(使切分的词数最小)
除此,还有双向最大匹配法(左→右,右→左两次扫描),以上方法可以结合使用。一般逆向最大匹配的正确率稍微比正向醉打匹配的要高一点。
2、基于理解的分词方法
通过让计算机模拟人对句子的理解,从而进行分词的操作,包括分词时的句法、语义分析,以及上下文处理歧义等。此法对语言知识和信息要求要高,尚处于试验阶段。
3、基于统计的分词方法
基于词是字的稳定组合,利用字与字之间相邻共现的频率或概率可以较好的反映词的置信度。计算两个字的互现信息,来刻画汉字之间的紧密程度,当这种程度超过一定的阈值,即可认为构成一个词。此法只对文本的字组频度进行统计,并不需要切分词典,因此又称为无字典分词法(或统计取词法)。但精度不高,时空开销大。但是可以与字符串匹配相结合,运用统计方法统计网络新词。
此外,结合统计机器学习的方法,可以对文本进行训练,学习词语的切分方法,以实现对中文文本分词的效果。同样要求大量的训练样本,并且时空开销比较大。