双向最大匹配算法

双向最大匹配算法 

简介#

双向最大匹配方法是基于词典的分词方法,按照一定的策略将分析的汉字串与字典里面的词条进行匹配,若在词典中找到某个字符串,则匹配成功。

根据扫描的方向可以分为正向最大匹配算法逆向最大匹配

正向最大匹配算法(MM)#

正向的方向定义是从字符串下标0到字符串末尾位置,取出字串与字典进行匹配

初始化最大匹配长度MaxLen,当前位置pos(初始为0),处理结果为result

0.令len = MaxLen,取出pos到pos+len的子串,查找字典

1.若匹配到,则将子串添加到result中,在保证不超出边界范围的情况下,pos = pos + len,向后匹配,len更新为0,回到步骤0处

2.若未在词典中找到该子串,len--(len>1),继续查找字典,若len == 1,则取出剩余子串,返回0步骤

2的步骤类似于:

你好吗

你好

这样的机制

逆向最大匹配(RMM)#

方法与正向类似,但方向相反

方向为从最后向前推进,即待匹配字符串长度-1的位置,取MaxLen,每次未匹配上则减去最前一个字

如:

你好吗

好吗

这样的机制

双向最大匹配(BM)#

双向最大匹配算法的原理就是将正向最大匹配算法和逆向最大匹配算法进行比较,从而选择正确的分词方式

比较原则/步骤:

1.比较两种匹配算法的结果

2.如果分词数量结果不同:选择数量较少的那个

3.如果分词数量结果相同

​ 1.分词结果相同,返回任意一个

​ 2.分词结果不同,返回单字数较少的一个

​ 3.若单字数也相同,任意返回一个

为什么需要双向匹配#

根据研究,中文90%左右的句子,正向匹配和逆向匹配全然重合,但是存在9%句子两种切分方法得到的结果不一样,单期中必然存在一个是正确的,仅有1%的句子,重合部分是错的(或都不正确)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值