再谈KMP/BM算法(II)

原创 2011年10月17日 10:16:45

KMP算法中next[i]与Zi(S)的对应关系

我在《KMP算法详解》一文中已经介绍了next[i]的含义,对于S[i],next[i]的意义是,如果存在k使得S[1...i-k]=S[k...i-1]且S[i-k+1]!=S[i],那么next[i]=i-k+1。实际上对于满足条件的k,其Z值Zk(S)就满足k+Zk(S)=i,next[i]=Zk(S)+1,所以我们可以用如下方法根据模式串S的Zi(S)表填写对应的next[i]表。

规则一,从头到尾遍历Zi(S),当遍历到元素k时,如果Zk(S)!=0,那么next[k+Zk(S)]=Zk(S)+1,如果还存在k'使得k+Zk(S)=k'+Zk'(S)那么next[k+Zk(S)]等于Zk(S)+1与Zk'(S)+1的较大者。

规则二,对于遍历Zi(S)列表之后,尚未填写的元素的next值,我们按照如下原则填充,对于元素S[i],如果S[i]=S[1],则其next值next[i]=0,否则next[i]=1。

根据上面的原则,我们对于《KMP算法详解》中的老例子通过Zi(S)构建next[i]的表格如下。这里对于S[8],由于4+Z4(S)=8,7+Z7(S)=8,所以我们选择其中的较大者Z4(S)=4,令next[8]=Z4(S)+1=5。对于S[9],由于9+Z9(S)超出了pattern数组的范围,所以我们不使用该Z值计算next跳转表。实际对于下表,除了next[8]之外,其余均是由规则二填写。相较于KMP三人给出的next表填写算法,利用Z值表填写next表固然增加了一个转换层,降低了算法效率,但是从易理解的角度讲,由Z值到next值的转换是十分有意义的。

   1  2  3  4  5  6  7  8  9 10
pattern a b c a b c a c a b
Zi(S) 0 0 0 4 0 0 1 0 2 0
next 0 1 1 0 1 1 0 5 0 1

BM算法goodsuffix[i]与Zi(S)的对应关系

用Z值表填写goodsuffix表的过程,要比填写next表复杂得多。首先,BM算法使用的是后缀自包含而Z值计算的是前缀,另一方面我们还需要找到最长的与后缀相匹配的前缀的长度,来修正跳转值。这里我们分别来处理这两个问题。

对于BM算法中的模式串S,我们可以计算其逆串Sr的Z值,Zi(Sr)。例如,对于S="abcxxxabc",Sr="cbaxxxcba",我们可以得到Sr的Z值表如下图所示

   1  2  3  4  5  6  7  8  9
Sr c b a x x x c b a
Zi(Sr) 0 0 0 0 0 0 3 0 0
我们可以用如下方法计算出模式串S的最大包含后缀表rpr(i)。遍历Sr的所有Z值,对于满足n-i-Zi(Sr)+1>0的i,令rpr(n-i-Zi(Sr)+1)=Zi(Sr),对遍历之后未被填充rpr(i)值的元素,赋值0(如果S从索引0开始,则公式要改动为n-i-Zi(Sr))。如下图,这里要注意,对于i=7,Z7(Sr)=3,但是9-7-3+1<=0,所以我们放弃这个值。
   1  2  3  4  5  6  7  8  9
S a b c x x x a b c
rpr(i) 0 0 0 0 0 0 0 0 0

之后,我们可以计算出未修正的好后缀跳转表。对于rpr(i)=0的元素,goodsuffix'[i]=patlen+n-i,对于rpr(i)!=0的元素,goodsuffix'[i]=n-rpr(i),其中n是模式串最末元素的索引值。如果模式串的首字符从0开始的话,n!=patlen这里要特别注意。

   1  2  3  4  5  6  7  8  9
S a b c x x x a b c
goodsuffix' 17 16 15 14 13 12 11 10 1

另外,我们还需要找到与后缀匹配的最长前缀p,用于修正goodsuffix'的跳转步数。p值在构建Zi(Sr)的时候可以得到,对于Sr中的元素Sr[i],如果有i+Zi(Sr)-1=n,那么p=Zi(Sr),如果有多个i满足该条件,则p等于其中的最大者。上例中对于Sr="cbaxxxcba",我们有7+Z7(Sr)-1=9,所以p=Z7(Sr)=3。在修正goodsuffix'的跳转步数时,我们对于n-i>=p的元素goodsuffix'值统一减去p即可得到最终的goodsuffix值。如下图

   1  2  3  4  5  6  7  8  9
S a b c x x x a b c
goodsuffix 14 13 12 11 10 9 11 10 1

上面虽然列出了4个步骤,但是在实际计算BM的好后缀跳转表的过程中,除了Zi(Sr)需要单独计算之外,其余三个步骤,可以一次完成。

在使用Z值表计算KMP算法或者是BM算法的跳转表的过程中,模式串起始索引要特别注意,如果S[0...n]从0开始,则要对一些地方做修正。因为如果模式串从索引0的位置开始,其最末元素n!=patlen,所以在计算过程中,哪里用的是模式串的长度,哪里用的是模式串最末元素的索引,要格外留心。

再谈KMP/BM算法(II)

KMP算法中next[i]与Zi(S)的对应关系 我在《KMP算法详解》一文中已经介绍了next[i]的含义,对于S[i],next[i]的意义是,如果存在k使得S[1...i-k]=S[k.....
 • riverflowrand
 • riverflowrand
 • 2016年03月12日 14:03
 • 221

BF,KMP,BM三种字符串匹配算法性能比较

BF,KMP,BM三种字符串匹配算法性能比较
 • zhanghaiyang9999
 • zhanghaiyang9999
 • 2014年11月02日 14:11
 • 2392

字符串匹配(BF,BM,Sunday,KMP算法解析)

字符串匹配一直是计算机领域热门的研究问题之一,多种算法层出不穷。字符串匹配算法有着很强的实用价值,应用于信息搜索,拼写检查,生物信息学等多个领域。 今天介绍几种比较有名的算法: 1. BF...
 • l953972252
 • l953972252
 • 2016年05月06日 13:43
 • 1717

KMP、BM、Sunday等字符串匹配算法及实现

发现字符串的匹配完全要考虑全面,如果考虑的情况不足够全面,就很可能出现这个例子可以运行,下一个例子的就行不通,毕竟匹配可能遇到各种各样的情况。本着可以实现效果就可以的原则,编的代码也实在是不优美,BM...
 • qq_27717921
 • qq_27717921
 • 2016年08月28日 18:25
 • 465

算法学习_字符匹配算法(BF,KMP,BM)

本文的内容都是来自一书,除了一些笔者自己的理解描述外,并无原创。仅作笔记之用。 转入正题,首先是问题的定义,这里的字符匹配指的是连续的子串匹配,而不是公共子序列。举例:asdfgge和dfg...
 • u011638883
 • u011638883
 • 2014年03月11日 21:47
 • 1061

字符串匹配算法(KMP、BM和Sunday),及Python实现

主要对三种字符串匹配算法(KMP、BM、Sunday)进行总结。这三种字符串匹配算法之间的主要区别在于:如果在匹配过程中遇到一个不匹配位,该用何种策略进行移位。例如,存在两个字符串,如下:   字...
 • u013671341
 • u013671341
 • 2014年05月11日 14:25
 • 613

BM算法与KMP算法详解(一)

       本系列文章主要介绍几种常用的字符串比较算法,包括但不限于蛮力匹配算法,KMP算法,BM算法,Horspool算法,Sunday算法,fastsearch算法,KR...
 • dashan120
 • dashan120
 • 2013年05月26日 11:54
 • 933

Simple、KMP、BM、Sunday匹配算法-效率测试

总结: BM属于贪心算法,适应于实际应用。 KMP是稳定算法,不在乎特例。 sunday更容易理解,效率比BM高。 一般的BM算法很容易构造m*n的特例,不过实际应用中比较少见。当然BM算法也可以改造...
 • ccy365263452
 • ccy365263452
 • 2016年11月11日 17:03
 • 913

字符串匹配的Sunday算法--性能上超过KMP和BM算法

第一次听到Sunday算法,是大饼饼说的。在他图文并茂的解释中,我发现这个算法果然是一个又容易理解,效率又强过kmp和BM的算法。 Sunday的移动次数更少!   于是试着写了一个,果真是好东...
 • fbz123456
 • fbz123456
 • 2016年03月16日 23:20
 • 238

再谈KMP/BM算法(I)

之前我的《BM算法详解》一文中有一个巨大的缺憾,就是没能给出计算模式串好后缀跳转表的高效算法。Robert S.Boyer和J Strother Moore两人的论文中,不知什么原因,并没有给出这...
 • riverflowrand
 • riverflowrand
 • 2016年03月12日 14:03
 • 235
收藏助手
不良信息举报
您举报文章:再谈KMP/BM算法(II)
举报原因:
原因补充:

(最多只允许输入30个字)