中文分词算法—— 基于词典的方法

最新推荐文章于 2024-04-28 15:07:01 发布

坚持到底cw

最新推荐文章于 2024-04-28 15:07:01 发布

阅读量1w

点赞数 1

分类专栏：中文分词文章标签：中文分词

中文分词专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、基于词典的方法（字符串匹配，机械分词方法）

定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

按照扫描方向的不同：正向匹配和逆向匹配

按照长度的不同：最大匹配和最小匹配

1.1正向最大匹配思想MM

1》从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。

2》查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。

若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

1.2逆向最大匹配算法RMM

该算法是正向最大匹配的逆向思维，匹配不成功，将匹配字段的最前一个字去掉，实验表明，逆向最大匹配算法要优于正向最大匹配算法。

1.3 双向最大匹配法(Bi-directction Matching method,BM)

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。据SunM.S. 和 Benjamin K.T.（1995）的研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。

1.4设立切分标志法

收集切分标志，在自动分词前处理切分标志，再用MM、RMM进行细加工。

1.5最佳匹配（OM，分正向和逆向）

对分词词典按词频大小顺序排列，并注明长度，降低时间复杂度。

优点：易于实现

缺点：匹配速度慢。对于未登录词的补充较难实现。缺乏自学习。

算法流程图如下：

转自http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
中文分词算法—— 基于词典的方法

基于词典的正向最大匹配算法，算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。算法流程图如下：转自http://yangshangchuan.iteye.com/blog/2031813
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。