python中文分词方法之基于规则的中文分词
目录
常见中文分词方法
推荐中文分词工具
参考链接
一、四种常见的中文分词方法:
- 基于规则的中文分词
- 基于统计的中文分词
- 深度学习中文分词
- 混合分词方法
基于规则的中文分词
包括, 正向最大匹配法,逆向最大匹配法和双向最大匹配法。
最大匹配方法是最有代表性的一种基于词典和规则的方法,其缺点是严重依赖词典,无法很好地处理分词歧义和未登录词。优点是由于这种方法简单、速度快、且分词效果基本可以满足需求,因此在工业界仍然很受欢迎。
正向最大匹配法
思想:
正如方法名称,正向表示对句子从左到右选择词典中最长的词条进行匹配,获得分词结果。
1、统计分词词典,确定词典中最长词条的字符m;
2、从左向右取待切分语句的m个字符作为匹配字段,查找词典,如果匹配成功,则作为一个切分后的词语,否则,去掉待匹配字符的最后一个继续查找词典,重复上述步骤直到切分出所有词语。
算法详细描述:
可参考博客