前记
目前,常见的中文分词方法可以分为三类:
- 基于字典、词库匹配的分词方法(基于规则)。这种方法是将待分的句子与一个充分大的词典中的词语进行匹配。常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率,或将分词与词类标注结合。
- 基于词频度统计的分词方法(基于统计)。相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,基于词的频度统计的分词方法是一种全切分方法。这种方法的代表是jieba分词工具。
- 基于知识理解的分词方法。该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这种分词方式是现在需要攻克的难点。
根据前面的描述可知,在基于规则进行匹配的时候,我们需要建立一个非常庞大的词典,这样才可能让分词结果变得更加的精确,这个是基于规则分词的缺点。但是基于规则分词效果好是其优点,所以一般情况下,将基于规则的分词方式作为初分的话会比较好。
基于规则的分词方式的要求
既然存存在许许多多的分词方式,我们的前人也探究出了最优的分词方式