python最大分词_中文分词--最大正向与逆向匹配算法python实现

最新推荐文章于 2023-11-23 14:15:08 发布

weixin_39770226

最新推荐文章于 2023-11-23 14:15:08 发布

阅读量958

点赞数

文章标签： python最大分词

本文介绍了Python中实现最大正向和逆向匹配法进行中文分词的方法，包括正向最大匹配法的详细步骤和逆向最大匹配法的流程，并给出了相应的Python代码实现。

摘要由CSDN通过智能技术生成

最大匹配法：最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。

下面以“我们在野生动物园玩”为例详细说明一下正向与逆向最大匹配方法：

1、正向最大匹配法：

正向即从前往后取词，从7->1，每次减一个字，直到词典命中或剩下1个单字。

第1次：“我们在野生动物”，扫描7字词典，无

第2次：“我们在野生动”，扫描6字词典，无

。。。。

第6次：“我们”，扫描2字词典，有

扫描中止，输出第1个词为“我们”，去除第1个词后开始第2轮扫描，即：

第2轮扫描：

第1次：“在野生动物园玩”，扫描7字词典，无

第2次：“在野生动物园”，扫描6字词典，无

。。。。

第6次：“在野”，扫描2字词典，有

扫描中止，输出第2个词为“在野”，去除第2个词后开始第3轮扫描，即：

第3轮扫描：

第1次：“生动物园玩”，扫描5字词典，无

第2次：“生动物园”，扫描4字词典，无

第3次：“生动物”，扫描3字词典，无

第4次：“生动”，扫描2字词典，有

扫描中止，输出第3个词为“生动”，第4轮扫描，即：

第4轮扫描：

第1次：“物园玩”，扫描3字词典，无

第2次：“物园”，扫描2字词典，无

第3次：“物”，扫描1字词典，无

扫描中止，输出第4个词为“物”，非字典词数加1，开始第5轮扫描，即：

第5轮扫描：

第1次：“园玩”，扫描2字词典，无

第2次：“园”，扫描1字词典，有

扫描中止，输出第5个词为“园”，单字字典词数加1，开始第6轮扫描，即：

第6轮扫描：

第1次：“玩”，扫描1字字典词，有

扫描中止，输出第6个词为“玩”，单字字典词数加1，整体扫描结束。

正向最大匹配法，最终切分结果为&#x

最低0.47元/天解锁文章

weixin_39770226

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。