KMP算法匹配字符串非常快,但是不是很好理解。
KMP算法移动:在已经匹配的模式串子串中,找出最长的相同的前缀和后缀,然后移动使它们重叠。
原因:其实这一点可以和BF朴素匹配字符串算法有相似的地方,BF算法是如果某一位不匹配,母串指针变为刚才匹配首位的下一位,子串上的指针置0,但是这是一个极大的浪费。
对于KMP算法来说,它很好的利用了已匹配的信息,和BF算法一样,KMP算法也需要向前移动子串,但是要尽可能地移动最大的距离。
如图所示,移动子串使子串已匹配的部分继续与母串匹配,其实就是已匹配部分的前缀与后缀继续匹配,所以当前缀和后缀相同且最长时,字串的移动距离可以合理且最大化。
原因搞懂了,就要来看一看如何算出最长公共前后缀长度,也就是大家常说的next数组。
void getnext(string str,int len)
{
int t;
next[0]=-1;
for(int i=1; i<len; i++)
{
t=next[i-1]; //t表示前i-1个字符串最长公共前后缀长度
while(t>=0&&str[i]!=str[t+1]) //在前i-1个字符串存在公共子串的情况下,尽可能找到可以与第i位相等的那一位
{
t=next[t]; //1.t=-1跳出循环 2.str[i]=str[t+1]跳出循环
}
if(str[i]==str[t+1]) //用已知的t来求前i个字符串最长公共前后缀长度
{
next[i]=t+1; //若满足往后继续相等,则前i个字符串最长公共前后缀长度等与t+1
}
else
{
next[i]=-1; //若不满足,则说明前缀的第一位(第一位)与后缀的末位(第i位)不相等,则无公共前后缀
}
}
}
接下来就是用next数组来求子串可移动的最大距离。
当母串的某位和子串的首位不相等,说明没有可利用的匹配信息,这时使母串的j++。
当母串和子串存在可利用的匹配信息时,子串的i=next[i-1]+1,即i等于前i-1个字符的最长公共前后缀长度,也就是next[i-1]+1,也是由于字符串的起始位置是0。
需要注意的是,在整个过程中,母串的指针j一直在++,所以当i跳转之后,正好和已匹配母串的下一位继续比对。
还有就是如果要求母串str2包含子串str1的个数,需要在满足条件时跳转i,只是此时可利用的匹配信息为全部子串,原理一样。
int KMPfind(string str1,int len1,string str2,int len2)
{
getnext(str1,len1); //获得next数组
int i=0,j=0;
int ans=0; //母串str2包含子串str1的个数
while(j<len2) //遍历母串str2
{
if(str1[i]==str2[j])
{
i++;
j++; //如果匹配,则子串和母串继续往后比对
if(i==len1) //如果子串和母串匹配成功,ans++,跳转i
{
ans++;
i=next[i-1]+1;
}
}
else
{
if(i==0) //如果母串的j位和子串的首位不相等,继续往后匹配,即j++
{
j++;
}
else
{
i=next[i-1]+1; //如果已经有未完全匹配的匹配的信息了,跳转i
}
}
}
return ans;
}