中文分词算法之基于词典的正向最小匹配算法

最新推荐文章于 2022-10-21 22:23:30 发布

weixin_34194702

最新推荐文章于 2022-10-21 22:23:30 发布

阅读量463

点赞数

文章标签：大数据 python

原文链接：https://my.oschina.net/apdplat/blog/217588

版权

2019独角兽企业重金招聘Python工程师标准>>>

在之前的博文中介绍了基于词典的正向最大匹配算法，比如我们切分句子: 中华人民共和国万岁万岁万万岁，使用正向最大匹配算法的切分结果为：[中华人民共和国, 万岁, 万岁, 万万岁]，可以看到，切分出来的词是很长的，粒度很粗，如果我们想要切分出很细粒度的词，该怎么办呢？

本文介绍正向最小匹配算法，该算法和正向最大匹配算法相得益彰，一个强调细粒度，一个强调粗粒度。

使用正向最小匹配算法，必须注意的一点是：词典中不能有单字词，词的长度至少为2！我们看正向最小匹配算法和正向最大匹配算法的代码比较：

切分效果如下：

切分句子: 中华人民共和国万岁万岁万万岁
正向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁]
正向最小匹配: [中华, 人民, 共和, 国, 万岁, 万岁, 万万, 岁]
切分句子: 杨尚川是APDPlat应用级产品开发平台的作者
正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]
正向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者]
切分句子: 美国加州大学的科学家发现
正向最大匹配: [美国加州大学, 的, 科学家, 发现]
正向最小匹配: [美国, 加州, 大学, 的, 科学, 家, 发现]

参考资料：

转载于:https://my.oschina.net/apdplat/blog/217588