中文分词算法 之 基于词典的正向最小匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用正向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢?

 

本文介绍正向最小匹配算法,该算法和正向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度。

 

使用正向最小匹配算法,必须注意的一点是:词典中不能有单字词,词的长度至少为2!我们看正向最小匹配算法正向最大匹配算法的代码比较:

 

 

切分效果如下:

 

切分句子: 中华人民共和国万岁万岁万万岁
正向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁]
正向最小匹配: [中华, 人民, 共和, 国, 万岁, 万岁, 万万, 岁]
切分句子: 杨尚川是APDPlat应用级产品开发平台的作者
正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]
正向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者]
切分句子: 美国加州大学的科学家发现
正向最大匹配: [美国加州大学, 的, 科学家, 发现]
正向最小匹配: [美国, 加州, 大学, 的, 科学, 家, 发现]

  

 

 

代码托管于GITHUB

 

参考资料:

1、中文分词十年回顾

2、中文信息处理中的分词问题

3、汉语自动分词词典机制的实验研究

4、由字构词_中文分词新方法

5、汉语自动分词研究评述

 

NUTCH/HADOOP视频教程

 

转载于:https://my.oschina.net/apdplat/blog/217588

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值