KMP算法——字符串的快速匹配
先了解一下字符串匹配的朴素模式匹配(B-F算法):
当模式串中X匹配到字符串Z时,比较不等,则模式串右移一位,此时指针也跟着回到模式串的初始位置(如下图所示),这个指针的移动叫做回溯。
为了消除这种回溯,提高运行效率,于是有了KMP算法。
KMP算法:
指针从模式串开头移动,当匹配到Z≠X时,寻找子串XZZXZ最大的公共前后缀,为XZ,则将模式串的前缀移动到后缀的位置,指针不动,如下图:
指针继续扫描,遇到不匹配时,继续寻找子串XZZXZX的最大公共前后缀,为X,将模式串的前缀移动到后缀的位置,指针不动,如下图:
发现模式串超出目标串的范围,则匹配失败。
下面介绍匹配成功的例子:
指针扫描到Z与X不匹配时,寻找最大公共串XZX,将模式串前缀移动到后缀位置,指针不动,如下图:
指针继续扫描,扫描到Z与X不匹配,最大公共前后缀X,前缀移到后缀位置。
指针继续移动匹配到模式串末端,则匹配成功。
从上面的例子可以看出模式串的位置移动不需要目标串,只与模式串(模式串的对称串)有关。将模式串提取出来如下图。
设模式串P匹配到j位置,当模式串与目标串不匹配时,则令j=next[j]
(模式串一般的存储方式如上图,从0开始存储也可以,原理一样)
容易看出指针移动的位置为:最大公共前后缀的长度+1,即k+1(=j-next[j]).
假设此刻目标串S匹配到 i 位置,模式串P匹配到 j 位置
如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符.
如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j].
KMP算法实现快速匹配算法ADT:
int AString::fastFind(AString& pat,int k,int next[])const{
//用模式串pat从k开始寻找在当前串(*this)中匹配的位置,若找到,则函数返回pat在this串中开始字符
//下标,否则函数返回-1.数组next[]存放pat的next[j]值。
int postP=0,posT=K; //两个串的扫描指针
int lengthP=pat.curLength; //模式与目标串的长度
int lengthT=curLength;
while(postP<lengthP&&posT<lengthT) //对两串扫描
if(posP==-1||pat.ch[posP]==ch[posT]{ //对应字符匹配
posP++;posT++;
}
else posP=next[posP];
if(posP<lenghthP) return -1; //匹配失败
else return posT-lengthP; //匹配成功
};
计算next[j]的算法——递归
void AString::getNext(int next[]){
//对模式p(*this),计算next函数
int j=0,k=-1,lengthP=curLength;
next[0]=-1;
while(j<lengthP)
if(k==-1||ch[j]==ch[k]){
j++;k++;
next[j]=k;
}
else k=next[k];
};