中文分词技术之基于规则分词
词是中文语言理解中最小的能独立运用的语言单位。中文的词与词之间没有明显分隔标志,因此在分词技术领域里,中文分词的实现要比英文困难。中文的分词技术有基于规则分词和基于统计分词两个大类,本文主要介绍基于规则分词。基于规则分词最常用的方法是最大匹配法,该方法又可以进一步划分为正向最大匹配发、逆向最大匹配法和双向最大匹配法。下面我们进行具体的介绍:
基于规则分词的基本思想
基于规则的分词方法是一种较为机械的分词方法,其基本思想是将待分词语句中的字符串和字典逐个匹配,找到匹配的字符串则切分,不匹配则减去边缘的某些字符,从头再次匹配,直至匹配完毕或者没有匹配到字典中的字符串而结束。
正向最大匹配法
假设有一个待分词中文文本和一个分词词典,词典中最长字符串的长度为 l l l:
- 从左至右切分待分词文本的前