要了解KMP算法首先要了解BF算法。
BF算法
概念
BF算法就是暴力匹配,即从主串的第一个字符开始于模式串的第一个字符进行比较。若相等则继续比较两者后续的字符;否则从主串的第二个字符开始和模式串的第一个字符进行比较。重复上述过程,直至主串和模式串中的所有字符比较完毕。
来看一下"ababc"与"ababaababcb"字符串匹配的过程:
仔细观察一下发现,第2趟和第4趟实际是没有必要的,而KMP算法就是把这些没有必要的趟都略过去。
代码
int BF(char S[],char T[]){
int i=0,j=0;
while(S[i]!='\0'&&T[j]!='\0'){
if(S[i]==T[j]){
i++;
j++;
}else{
i=i-j+1;
j=0;
}
}
if(T[j]=='\0') return (i-j+1);
else return 0;
}
KMP算法
概念
来看KMP算法下的"ababc"与"ababaababcb"字符串匹配的过程:
在第一趟中,匹配的段是"abab",在这一段中"ab"重复出现,因此下一趟直接把第一个"ab”中的b移到下一个"ab“的b的位置上,从b开始进行比较,因为此时仍能保持"ab"是匹配的。
在第二趟中,匹配的段是"aba",其中a是重复的,因此下一趟直接将第一个a移到下一个a的位置。
在第三趟中,只有a匹配上了,因此下一趟后移一位进行比较。
第四趟匹配完毕。
现在应该大致了解了KMP匹配的操作,那怎么计算要后移多少位进行匹配呢?
书上给了个公式:
先来理解一下这个公式(以"'ababc"为例):
j=0,符合公式中的第一种情况,next[0]=-1;
j=1,符合公式中的第三种情况,next[1]=0;
j=2,符合公式中的第二种情况,k可取1,因为T[0]!=T[1],next[2]=0;
j=3,符合公式中的第二种情况,k可取1、2,当k=1时,T[0]=T[2];k=2时,T[0]T[1]!=T[1]T[2],能够使等式成立的最大k为1,next[3]=1;
j=4,符合公式中的第二种情况,k可取1、2、3,当k=1时,T[0]!=T[3];k=2时,T[0]T[1]=T[2]T[3];k=3时,T[0]T[1]T[2]!=T[1]T[2]T[3],能够使等式成立的最大k为2,next[4]=2;
再来看一个概念:
前缀、真前缀、后缀、真后缀
观察一下发现,每次比较的就是长度为k的真前缀和真后缀。
因此,next[j]的值就是,最大的相等的真前缀和真后缀的长度。
代码
void GetNext(char T[],int next[]){
next[0]=-1;
j=0;k=-1;
while(T[j]!='\0'){
if((k==-1)||(T[j]==T[k])){
j++;
k++;
next[j]=k;
}else{
k=next[k];
}
}
}
前面的理解起来都不难,关键是理解这段代码比较难。
next代码理解