转载一篇博客,感觉能讲明白:
https://blog.csdn.net/starstar1992/article/details/54913261?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159331433119195264516823%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159331433119195264516823&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2alltop_click~default-1-54913261.nonecase&utm_term=kmp
void cal_next(char *str, int *next, int len)
{
next[0] = -1;//next[0]初始化为-1,-1表示不存在相同的最大前缀和最大后缀
int k = -1;//k初始化为-1
for (int q = 1; q <= len-1; q++)
{
while (k > -1 && str[k + 1] != str[q])//如果下一个不同,那么k就变成next[k],注意next[k]是小于k的,无论k取任何值。
{
k = next[k];//往前回溯
}
if (str[k + 1] == str[q])//如果相同,k++
{
k = k + 1;
}
next[q] = k;//这个是把算的k的值(就是相同的最大前缀和最大后缀长)赋给next[q]
}
}
int KMP(char *str, int slen, char *ptr, int plen)
{
int *next = new int[plen];
cal_next(ptr, next, plen);//计算next数组
int k = -1;
for (int i = 0; i < slen; i++)
{
while (k >-1&& ptr[k + 1] != str[i])//ptr和str不匹配,且k>-1(表示ptr和str有部分匹配)
k = next[k];//往前回溯
if (ptr[k + 1] == str[i])
k = k + 1;
if (k == plen-1)//说明k移动到ptr的最末端
{
//cout << "在位置" << i-plen+1<< endl;
//k = -1;//重新初始化,寻找下一个
//i = i - plen + 1;//i定位到该位置,外层for循环i++可以继续找下一个(这里默认存在两个匹配字符串可以部分重叠),感谢评论中同学指出错误。
return i-plen+1;//返回相应的位置
}
}
return -1;
}
解释一下k = next[k]的原因(个人体会):
常规的算法是发现有某位不同后就再从头开始比较,而kmp想要从之前的某位开始比较,之前的信息是在next数组中记录过的,而next[k], 意味着s串(长串)中的前一位与p串中(短串)完全匹配上的p串中的位置。这样然后在这次循环中再看看本位能不能匹配上就好。这条语句也是kmp算法的精髓所在。
相当于比对时,后缀比完了,后面有出现不一样了之后,把前缀直接挪过去,由于next数组的存在,前缀和后缀一样的部分就不用再比对了。
注意:前后缀不包括它本身。
关于next数组的求法,我画了一个示意图更好地解释:
b和c不一样时,一般的想法是看看k-1长度的前后缀一不一样。这样就麻烦。那么,既然之前的nxt数组已经求出来了,为何不去利用呢?画红线的位置表示之前相同的前后缀,当k=next[k]之后,意味着找到上一个前后缀完全相同的位置,如图所画前半段保留前缀,后半段保留后缀。这就是所谓回溯的过程。