Boyer-Moore算法

一.简述

        在当前用于查找子字符串的算法中,BM(Boyer-Moore)算法是当前有效且应用比较广的一中算法,各种文本编辑器的“查找”功能(Ctrl+F),大多采用Boyer-Moore算法。比我们在学习的KMP算法快3~5倍。

        Boyer-Moore算法不仅效率高,而且构思巧妙,容易理解。1977年,德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。

二.算法思想

        我们知道常规的字符串匹配算法是从左往右的,这也比较符合我们一贯的思维,但是BM算法是从右往左的。一般匹配我们用的是蛮力匹配,而经典的BM算法其实是对后缀蛮力匹配算法的改进,下面我们给出蛮力后缀匹配的伪代码。

j = 0;
while (j <= strlen(T) - strlen(P)) {
   for (i = strlen(P) - 1; i >= 0 && P[i] ==T[i + j]; --i)
   if (i < =0)
      match;
   else
	++j;
}

        从上面的伪代码中我们可以看出每当失匹的时候,就会往后移一位,也就是上面++j这一行代码;而BM算法所做的就是改进这一行代码,即模式串不在每次只移动一步,而是根据已经匹配的后缀信息,来判断移动的距离,通常80%左右能够移动模式串的长度,从而可以跳过大量不必须比较的字符,大大提高了查找效率。

        为了实现更快的移动模式串,BM定义了两个规则,坏后缀规则和好后缀规则。这两个规则分别计算我们能够向后移动模式串长度,然后选取这两个规则中移动大的,作为我们真正移动的距离。也就是上述伪代码中j不在每次加一,而是加上上面两个规则中移动长度大的。

        假定字符串为”HERE IS A SIMPLE EXAMPLE”,模式串为”EXAMPLE”。下面我将阐述几个概念,坏字符和好后缀。


        上图中我们看到,”S”与”E”不匹配。这时,“S”就被称为”坏字符”(bad character),即不匹配的字符。


       上图中 ”MPLE”与”MPLE”匹配。我们把这种情况称为”好后缀”(good suffix),即所有尾部匹配的字符串。注意,”MPLE”、”PLE”、”LE”、”E”都是好后缀,这点后面我们会用到。

 

坏字符算法

        当出现一个坏字符时, BM算法向右移动模式串, 让模式串中最靠右的对应字符与坏字符相对,然后继续匹配。坏字符算法有两种情况。

  • 模式串中有对应的坏字符时,y为字符串,x为模式串,见下图


        坏字符出现在模式串中,这时可以把模式串第一个出现的坏字符和母串的坏字符对齐,也就是上面所说的最靠右。当然,这样可能造成模式串倒退移动,因为坏字符可能出现在与模式串失匹位置的右面,不过由于我们移动不光看坏后缀还看好后缀,所以不会后退。

  • 模式串中不存在坏字符,这时可以把模式串移动到坏字符的下一个字符,继续比较。如下图所示


好后缀算法

         好后缀算法分为三种情况

  • 模式串中有子串匹配上好后缀,此时移动模式串,让该子串和好后缀对齐即可,如果超过一个子串匹配上好后缀,则选择最靠右边的子串对齐,防止有漏匹配的。


  • 模式串中没有子串匹配上后后缀,此时需要寻找模式串的一个最长前缀,并让该前缀等于好后缀的后缀,寻找到该前缀后,让该前缀和好后缀对齐即可。



  • 模式串中没有子串匹配上后后缀,并且在模式串中找不到最长前缀,让该前缀等于好后缀的后缀。此时,直接移动模式到好后缀的下一个字符。

  • 18
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值