#include<iostream>
using namespace std;
int* Compute(char* P)
{
int m=strlen(P);
int* PI=new int[m];
PI[0]=-1;
int k=-1;
for(int q=1;q<m;q++)
{
while((k>=0)&&(P[k+1]!=P[q]))
k=PI[k];
if(P[k+1]==P[q])
k++;
PI[q]=k;
}
return PI;
}
int KMP(char* T,char* P)
{
int count=0;
int n=strlen(T);
int m=strlen(P);
int* PI=Compute(P);
int q=-1;
for(int i=0;i<n;i++)
{
while((q>=0)&&(P[q+1]!=T[i]))
q=PI[q];
if(P[q+1]==T[i])
q++;
if(q==m-1)
{
count++;
q=PI[q];
}
}
return count;
}
int main()
{
int test;
int count;
char P[10010];
char T[1000010];
scanf("%d",&test);
while(test--)
{
scanf("%s",P);
scanf("%s",T);
count=KMP(T,P);
printf("%d\n",count);
}
}
翻译了算法导论上的伪代码,不过伪代码的可读性不高,附上解释。
另一种写法:可读性强一点
#include<iostream>
using namespace std;
char P[10010];
char T[1000010];
int tmp[10010];
void GetNext(char* p,int next[])
{
int pLen=strlen(p);
next[0]=-1;
next[1]=0;
int k=0;
for(int j=1;j<pLen;j++)
{
if(p[k]==p[j])
{
k++;
next[j+1]=k;
}
else
{
do
{
k=next[k];
}
while((k>=0)&&(p[k]!=p[j]));
k++;//k=-1;或p[k]=p[j]
next[j+1]=k;
}
}
}
int KmpSearch(char* s,char *p,int* next)
{
int i=0,j=0;
int sLen=strlen(s);
int pLen=strlen(p);
int count=0;
while(i<sLen)
{
if(s[i]==p[j])
{
i++;
j++;
if(j==pLen)
{
count++;
j=next[j];
}
}
else
{
j=next[j];//next[0]=-1;
if(-1==j) { j++;i++;}
}
}
return count;
}
int main()
{
int test;
int count;
scanf("%d",&test);
while(test--)
{
scanf("%s",P);
scanf("%s",T);
GetNext(P,tmp);
count=KmpSearch(T,P,tmp);
printf("%d\n",count);
}
}
解释很复杂:详情请见博客
http://blog.csdn.net/v_july_v/article/details/7041827
解释:
if(p[q]!=p[k])
do
{
k=next[k];
}
首先 p[q-1]有k个前缀后缀,即p[0..k-1],当p[q]!=p[k]时,k=next[k],即求解p[q-1]前缀后缀的前缀后缀,比如说k0=next[k],表示p[0..k0-1]是p[0..k-1]的前缀后缀,因为p[q-1-k,q-1]等同于p[0..k-1],所以p[0..k0-1]是p[q-1-k,q-1]的前缀后缀。如果p[k0]=p[q],
next[q+1]=next[k0]+1;