分词算法

最新推荐文章于 2024-08-07 07:15:00 发布

一座青山

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量920

点赞数

分类专栏： search engine 文章标签：正向最大匹配算法分词算法逆向最大匹配算法正向最小匹配算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sangyongjia/article/details/68489523

版权

search engine 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

1.正向最大匹配算法

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。

算法流程图如下：

以上内容参见：http://yangshangchuan.iteye.com/blog/2031813

此文章还对比了linked list、array、trie树和hash table的方式实现正向最大匹配算法的性能对比！其中trie书和hash table的性能对比比较有意思！

2.逆向最大匹配算法

逆向最大匹配算法的实现思想参见上图的算法流程图，其区别有两点（红字标示）：

从S1的尾部逆向选择长度不大于MaxLen的字符作为W，然后去字典中查询，如果查询不到，将W最左边的一个字去掉。

最大匹配算法的特点：

最大匹配算法在大型搜索系统中的使用频率较低，其主要问题有以下几点：
长度限制：由于最大匹配法必须首先设定一个匹配词最大长度的初始值，这个长度限制是最大匹配法在效率与词长之间的一种妥协。因此：
词长过短，长词就会被切错。
词长过长，效率就比较低。
效率低: 由于很多词长会低于最大匹配的长度，因此，会造成大量的匹配浪费。
不能处理歧义和重叠字（不理解）

3.正向最小匹配算法

比如我们切分句子: “中华人民共和国万岁万岁万万岁”，使用正向最大匹配算法的切分结果为：[中华人民共和国, 万岁,万岁, 万万岁]，可以看到，切分出来的词是很长的，粒度很粗，如果我们想要切分出很细粒度的词，该怎么办呢？——正向最小匹配算法。该算法和正向最大匹配算法相得益彰，一个强调细粒度，一个强调粗粒度。使用正向最小匹配算法，必须注意的一点是：词典中不能有单字词，词的长度至少为2！

最小匹配算法特点：

由于最小切分每次都只需要获得最小批评的词，速度快；
其次，在词典相对完善的情况下，该切分方法可以获得较好的准确率；
当前，Sf1r中使用，最小匹配方式。

4.统计分词算法

……

5.条件随机场算法

……

总结：

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。