关于KMP算法的理解,next数组和改进的nextval数组的计算

一、KMP算法
KMP算法主要是为了解决暴力匹配中主串指针前移而造成的资源和时间的浪费,KMP算法主要由三个步骤实现:
1、算子串的部分匹配值(PM值),列出PM表
2、按照PM表的指示确定下一次匹配时子串右移的长度。
公式:
移动距离=匹配元素个数-最后一个匹配元素的PM值

二、next数组
KMP会出现一个问题,如果首位就不匹配怎么办?
比如主串abbca和子串bca相比,第一个位置就不匹配,那就不会移动了,所以这里需要用next数组改进一下。

编号12345
Sabcac
next-10001
PM00010

很明显next就是PM右移一个单位,-1补位的结果
这里提出一个公式:
Move=(j-1)-next[j]
注意j是子串指针,指向当前准备匹配的元素。
推导,得:
j=next[j]+1
这里举个例子,加深为什么推这个公式的理解。

主串ababcabcac
子串abcac

子串很明显是第5个元素c失配,现在代入公式,
那么:j=next[5]+1=1+1=2,这里就需要理解一下这个2是什么意思,首先2是子串的第二个元素b,那么这个2要干什么,要对齐主串之前失配的元素b,b和b对齐后,我们下一次的匹配就会是这样的:

主串ababcabcac
子串abcac

这样写似乎给人一种子串还要从头还是比一遍的错觉,但实际上匹配直接从子串的第二个位置b开始,综上,j=next[j]+1求出的j有两个意思:
1、将子串的第j个元素和之前失配的位置对齐。
2、子串的下一次匹配从第j个元素开始,j之前的不再做匹配。
这算是个重点。
为了方便把那个+1去掉,咱们把next数组整体+1,得到以下结果:

编号12345
Sabcac
next01112
PM00010

现在的公式也变成了j=next[j],不过注意,这里next的计算方法不再依赖PM的平移来实现,而是有它独立的方法:
n e x t [ j ] = { 0 , j = 1 m a x [ k ∣ 1 < k < j 且 ′ p 1 . . p k − 1 ′ = ′ p j − k + 1 . . . . p j − 1 ′ ] , 当 此 集 合 不 为 空 时 1 , 其 他 情 况 next[j]=\left\{ \begin{aligned} 0,j=1& \\ max[k|1<k<j且'p_{1}..p_{k-1}'='p_{j-k+1}....p_{j-1}'],当此集合不为空时\\ 1,其他情况 \end{aligned} \right. next[j]=0,j=1max[k1<k<jp1..pk1=pjk+1....pj1],1,
这个公式确实比较难理解,下面举个例子实际操作一下:

编号12345
Sabcac

首先当j=1时,next[1]=0;
当j=2时,p1=a,这个属于其他情况,next[2]=1;
当j=3时,p2=b,p[next[2]]=p1=a,a不等于b,next[1]=0,所以next[3]=1;
当j=4时,p3=c,p[next[3]]=p1=a,c不等于a,所以next[4]=1;
当j=5时,p4=a,p[next[4]]=p1=a,a等于a,所以next[5]=next[4]+1=2
所以总结一下可以发现规律:
1、第一位为0,第二位为1
2、求当前元素的next值需要知道前一个元素的next值,将前一个元素的next值作为位序,比较两个元素是否相等,如果相等,当前元素next值等于前一个next+1
3、如果两元素不相等就一直比较,比如:

编号1234567
Sabaabca
next011223?

比较p6和p3,不相等,比较p6和p1,不相等,那next[7]=1了,因为匹配到头都不相等,属于其他情况。
那如果第一次两个元素不等,过了几次相等后怎么办呢,比如求上表编号5的next值,
p4不等于p2,比较p4和p1发现相等,这时next[5]就是1+1=2,
区别第二种一次就相等的情况给出两个公式,

如果一次就相等,那么next[j+1]=next[j]+1
如果比较了很多次最后一次才相等,设最后一次比较的元素编号为k,那么next[j+1]=k+1

以上就是求next数组的方法了。

三、nextval数组
nextval数组被用来解决多个重复元素出现后,子串移动太慢的问题,计算nextval的前提是知道next数组。
太慢可以通过一个例子来理解:

主串aaabaaaab
子串aaaab

子串的next数组是:

编号12345
Saaaab
next01234

很明显子串第五个位置出现失配,根据公式j=next[j],应该将4号位置对齐失配位置,得:

主串aaabaaaab
子串aaaab

太慢了,一次只能动一个,而且可以看出来是没有意义的移动
提出nextval来进行改进,具体进行过程:
1、如果Pk和P[next[k]]相等,那么nextval[k]=nextval[next[k]]
2、如果Pk和P[next[k]]不相等,那么nextval[k]=next[k];
可以通过一个例子理解:

编号12345
Saaaab
next01234

还是这个例子,
nextval[1]=0是一直成立的。
第二步,p2=a,p[next[2]]=p1=a,p2=p[next[2]],nextval[2]=nextval[next[2]]=nextval[1]=0;
第三步,和第二步同理
第五步,p5=b,p[next[5]]=a,两个不相等,nextval[5]=next[5]=4;
所以最后的nextval数组就是:

编号12345
Saaaab
next01234
nextval00004
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值