KMP算法及Next数组求解方法

KMP算法是大二第一学期数据结构课上学的,当时有点颓废,听课都是得过且差不多懂了就行,没有更深的去理解一些东西,所以导致我学数据结构这个基础课程学的不咋地,慢慢补喽嘿嘿。加油嘿嘿

 

什么叫做模式匹配呢? 

模式匹配是:

给定两个串S="s1s2....sn"和T=“t1t2...tm",在主串S中寻找子串T的过程称为模式匹配(pattern matching),其中T称为模式。如果匹配成功,返回T在S中的位置,如果匹配失败,返回0.

 

这里举例是: 

S=”ababcabc....",T=" ababcaba..." (分别下标对应1,2,3,4,5,6...)

 

对于模式匹配算法有两种算法:

一、朴素的模式匹配算法(效率不好的,通常算法比较简单的,效率都不咋地吧)

二、改进的模式匹配算法--KMP算法(比较复杂但是时间要少很多哦)

 

对于朴素的模式匹配算法呢,大体算法如下:

即每次匹配失败的时候,i,j都要回溯。

比如:当S(8)!=T(8)时,朴素的模式匹配算法是这样的嘿嘿:

既然从s(1)开始的子串不能匹配,那就再从s(2)开始的子串看看能不能匹配成功呢,匹配不成功的话,就再从s(3)开始的子串看看能不能成功呢,依次这样回溯下去。当然是不能匹配成功的了,其实这里面有很多不必要的比较:

对于:ababcab|c

        ababcab|a

当比较到下标为8时,前面的1--7已经比较了,假设i要回溯到小标为2,因为存在

S串中的babcab==T串中的 babcab,而T串中的 ababca!=T串中的  babcab

则S串中的 babcab!= T串中的 ababca

所以即使i回溯到是s(2),接下来的比较: S串中的 babcab!= T串中的 ababca 是需要比的

同理, S串中的 abcab!= T串中的 ababcS串中的 bcab!= T串中的 abab

            S串中的 cab!= T串中的 bab   S串中的 ab== T串中的 ab(这里即使相等也没有比较了)

 所以,可以使i不回溯,只使j滑动到某个位置,这里的是滑动到t(3)的位置啦。

 

因为模式串T对于我们来说是已知的,所以可以求出每个j(1---length)对应的K值。 

 

假如当s(i)!=t(j)时,也就是此时匹配失败,则

s1...s(i-j+1).......s(i-1) | s(i)    (其中下标的算法是:i-1-x=j-1-1,所以x=i-j+1)

       t(1)............t(j-1) | t(j)    (已经匹配的字符串的长度肯定是相等的嘛)

J-1长度的字符串是匹配相等的,则由

s(i-j+1).......s(i-1)“==”  t(1)............t(j-1)“   (这是以后算next[]数组的前提条件哦)

如果希望在某趟s(i)和t(j)的匹配失败后,指针i,不回溯,则使j移到k的位置,使得t(k)与s(i)继续匹配。

当j移到K的位置时:

s(1)....s(i-j+1)......s(i-k+1)............s(i-1)|s(1)

                          t(1)..................t(k-1)|t(k)

 

因为:  s(i-j+1)...s(i-j+k-1)...s(i-k+1)...s(i-1)“==”  t(1)...t(k-1)t(k)...t(j-k+1)......t(j-1)“

所以: ” s(i-k+1)...s(i-1)“==” t(j-k+1)......t(j-1)“

再因为:“ t(1)........t(k-1) ”== " s(i-k+1).....s(i-1)"

再所以即:  t(1)........t(k-1) ”== t(j-k+1)......t(j-1)“

即通过这个式子可以求出K的值。即:在模式串T中找到最大的一个重复子串(从t1开始到t(k)==从T(j-k+1)开始到T(j-1)的最长子串,找到了就是对应的K值。

 

下面是Next[]数组的函数:

 

               0,   j=1;

next[j]={ max {k|1<=K<j且 t(1)........t(k-1) ”== t(j-k+1)......t(j-1)“

              1     其他情况

 

那么下面是怎么在模式串中找到,这样的一个子串,就是 :从t1开始到t(k)==从T(j-k+1)开始到T(j-1)的最长子串。

 

虽然现在对于求出next[]数组有了一定的认识,但是对于找到  这样的一个子串,就是 :从t1开始到t(k)==从T(j-k+1)开始到T(j-1)的最长子串。还是需要算法的。

下面是求next数组的代码实现:

 

 

 

 

 

KMP算法用伪代码描述如下:

1.在串S和串T中,分别设比较的起始下标i,j;

2.循环直到S中所剩余字符长度小于T中的长度或者T中所有字符均比较完毕

   2.1如果s[i]=s[j],继续比较s和T的下一个字符;否则

   2.2将j向右滑动到next[j]的位置,即j=next[j];

   2.3如果j=0,则将i和j分别加1,准备下一趟比较

3.如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回0;

 

 

 

 

KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。next数组KMP算法中的一个重要概念,用于优化匹配过程。next数组求解过程如下: 1. 首先,我们需要定义一个next数组,next[i]表示当P串中第i个字符与S串中某个字符不匹配时,下一次匹配应该从P串的第next[i]个字符开始。 2. 对于P串中的每一个字符P[i],我们需要找到一个最长的相等前缀后缀长度k,使得P[0:k] == P[i-k:i]。这个k就是next[i]的值。 3. 求解next数组的过程可以使用递推的方式,从next开始,依次求解next、next、...、next[n-1]。具体地,我们可以使用两个指针i和j,其中i表示当前需要求解的next值的下标,j表示当前已经求解出的next值。初始时,i=0,j=-1。 4. 对于i>0的情况,我们需要不断地将j向前移动,直到找到一个满足P[j]==P[i-1]的位置。此时,我们就可以根据已经求解出的next[j]的值来求解next[i]的值。具体地,如果P[next[j]]==P[i-1],那么next[i]=next[j]+1;否则,我们需要继续向前递归,直到找到一个满足P[next[next[j]]]==P[i-1]的位置,此时next[i]=next[next[j]]+1。 5. 最后,我们得到了整个P串的next数组,可以使用KMP算法进行字符串匹配。 下面是一个Python实现的例子: ```python def get_next(p): n = len(p) next = [0] * n j = -1 for i in range(1, n): while j >= 0 and p[j+1] != p[i]: j = next[j] if p[j+1] == p[i]: j += 1 next[i] = j return next ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值