python中文分词算法_分词 | 双向匹配中文分词算法python实现

最新推荐文章于 2022-04-05 23:09:17 发布

VIP文章 weixin_39553805

最新推荐文章于 2022-04-05 23:09:17 发布

阅读量381

点赞数 1

文章标签： python中文分词算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39553805/article/details/111518931

版权

本次实验内容是基于词典的双向匹配算法的中文分词算法的实现。使用正向和反向最大匹配算法对给定句子进行分词，对得到的结果进行比较，从而决定正确的分词方法。

算法描述

正向最大匹配算法

先设定扫描的窗口大小maxLen(最好是字典最长的单词长度)，从左向右取待切分汉语句的maxLen个字符作为匹配字段。查找词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来，并将窗口向右移动这个单词的长度。若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

反向最大匹配算法

该算法是正向的逆向算法，区别是窗口是从后向左扫描，若匹配不成功，则去掉第一个字符，重复上述的匹配步骤。

双向最大匹配算法

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。定义的匹配规则如下：

如果正反向匹配算法得到的结果相同，我们则认为分词正确，返回任意一个结果即可。

如果正反向匹配算法得到的结果不同，则考虑单字词、非字典词、总词数数量的数量，三者的数量越少，认为分词的效果越好。我们设定一个惩罚分数(score_fmm / score_bmm = 0)，例如：正向匹配中单字词数量多于反向匹配，则正向匹配的分值score_fmm += 1。其他两个条件相同。可以根据实际的分词效果调整惩罚分数的大小，但由于没有正确分词的数据，因此惩罚分数都设为1。最后比较惩罚分数，返回较小的匹配结果。

详例描述

以“对外经济技术合作与交

最低0.47元/天解锁文章

weixin_39553805

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python中文分词算法_分词 | 双向匹配中文分词算法python实现

本次实验内容是基于词典的双向匹配算法的中文分词算法的实现。使用正向和反向最大匹配算法对给定句子进行分词，对得到的结果进行比较，从而决定正确的分词方法。算法描述正向最大匹配算法先设定扫描的窗口大小maxLen(最好是字典最长的单词长度)，从左向右取待切分汉语句的maxLen个字符作为匹配字段。查找词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来，并将窗口向右移动这个单词的长度。若匹配不...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。