参考的话:这一篇就足够了
http://jakeboxer.com/blog/2009/12/13/the-knuth-morris-pratt-algorithm-in-my-own-words/
知乎上的解答
https://www.zhihu.com/question/21923021
多了next数组
一个观点:IT从业者还是不要惧怕English,因为你所需要的绝大多数资源都是英文的,这个世界的大多数真理还是在英文手中。而且,英文这东西,你多看看,也是能较为轻松的阅读的。
个人总结:
KMP算法做了个什么事情呢,就是在做字符串匹配时,如果,发现一些上一步的匹配结果可以为下一步的匹配作为参考的话,那么利用上一步的匹配结果,就能够使得匹配的时间缩短。而KMP就是在此基础上,设计了一个合理的逻辑来利用上一步的匹配结果。这其中很重的一个设计点是PMT, Partial Match Table, 我翻译为部分匹配表,即在匹配的过程中,不仅是在做字符串全部的匹配,也在利用部分匹配的结果,而部分匹配表就是为了利用部分匹配的结果,也就是之前说的上一步的匹配结果。而部分匹配表存的是什么呢,那就是最佳前缀和最佳后缀的交集中最长的字符串的长度。
next数组只是为了更好的使用PMT的一个设计,它本质上就是PMT的一个移动。
#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
// 这个是算next数组的方法,有机会再实现一个算PMT的方法
void cal_next(char *ptr, int *next)
{
next[0] = -1;
int i = 0, j = -1;
while (i < strlen(ptr))
{
if (j == -1 || ptr[i] == ptr[j])
{
++i;
++j;
next[i] = j;
}
else
j = next[j];
}
}
/* example
*
* bacbababababca
* abababca
* target 的index前移2个位置和 ptr后移两个位置等价
*/
int kmp(char *target, char *ptr, int *next) {
int i = 0;
int j = 0;
int tlen = strlen(target);
int slen = strlen(ptr);
// 下面这条语句执行会出现只循环一次的情况,不知道为什么,待高手指教
// 而且,不要指望编译器会将strlen(target)这个计算结果hold住,还是自己开空间存储是最保险的
// while( i < strlen(target) && j < strlen(ptr) ) {
while( i < tlen && j < slen ) {
if ( j == -1 || target[i] == ptr[j]) {
++i;
++j;
}
else {
j = next[j];
}
}
if ( j == strlen(ptr)) {
return i - j;
}
else {
return -1;
}
}
int main() {
char ptr[] = "abababca";
char target[] = "bacbababababca";
int length = 8;
int *next = new int[length];
cal_next(ptr, next);
int index = kmp(target, ptr, next);
cout<<index<<endl;
}