最近在研究文本挖掘相关工具和知识,在对文档(文本文件、Word文件、网页等)能够进行全文检索或数据挖掘前,需要首先进行预处理,使之能够成为相对标准的基础数据,“分词”(Word Segmentation)是进行文档预处理过程中的一项重要工作,特别是对中文,由于中文与英文不同,中文只是字、句和段能通过明显的分界符来简单划界,但是词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。因此成功地进行中文分词,是实现计算机自动识别语句含义的基础。
关于中文分词的研究在30多年前就已经开展,大陆、台湾、新加坡等地区的研究人员均提出了不同的分词方法并且相互借鉴,比较有影响并且在目前获得较多应用的是台湾蔡志浩于1996发表的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”,此方法(原文称之为系统,这里以解决方法代之)影响很广并且有多种语言的实现,因此对于有志于研究中文分词方面知识或者开发相关产品的同志们具有很好的借鉴意义,下面是我对这个方法的基本理解,可能还存在偏差,与大家共飨!
1、解决方法组成
在原文中,指出“The system consisted of a lexicon, two matching algorithms, and four ambiguity resolution rules ”,即系统由一个词典、两个匹配算法和四个歧义消除规则组成。