摘于王道机试题的一段话:
kmp算法是一种改进的字符串匹配算法,其核心是,模式串匹配失败后,并不是从下一字符开始重新匹配,而是利用已有信息(next数组),跳过一些不可能匹配成功的位置,以减少匹配次数。
在此十分感谢这篇博文,看了一晚上只有这篇博文茅塞顿开。
下面记录一下我的理解:
1.在求next数组时,判断next[i] = next[j]时,相当于从最长前后缀开始匹配,以后缀为主。以最长后缀为例,每一个后缀必定都包含最后一个字符,故i首先指向的就是最后一个字符,如果最后一个字符不匹配,那么就不用看了,最长公共前后缀的数量可定要减,也就是j指向更小的前缀的最后。
2.j = next[j]这步,相当于跳回次长前缀的最后,如上文。
#include<iostream>
#include<cstdio>
#include<string>
#include<stdio.h>
#include<string.h>
#include<stdlib.h>
using namespace std;
/*
kmp算法太难了
http://data.biancheng.net/view/180.html
*/
void getnextTable(char *pat, int *next, int len){
int i = 1,j = 0;
next[0] = -1;next[1] = 0;
while(i < len){
if(j == -1 || pat[i] == pat[j]){
j++;i++;
next[i] = j;
}
else{
j = next[j];
}
}
// for(int k = 0;k<len;k++)
// printf("%d ",next[k]);
// printf("\n");
}
int kmp(char *str,char *pat,int *next,int n,int m){
int i = 0,j = 0;
while(i < n && j < m){
if(j == -1 || str[i] == pat[j]){
i++;j++;
}else
{
j = next[j];
}
}
if(j == m)
return i-j+1;
else
return -1;
}
int main(){
int casenum;
scanf("%d",&casenum);
while(casenum--){
int n,m;
printf("%d\n",scanf("%d%d",&n,&m));
char *str = (char *)malloc(sizeof(char)*n);
char *pat = (char *)malloc(sizeof(char)*m);
int *next = (int *)malloc(sizeof(int)*m);
for(int i = 0;i<n;i++)
scanf("%d",str+i);
for(int j = 0;j<n;j++)
scanf("%d",pat+j);
getnextTable(pat,next,m);
printf("%d\n",kmp(str,pat,next,n,m));
free(str);
free(pat);
free(next);
}
return 0;
}