/*
原作者: glq2000
/*
参考资料: http://www.matrix67.com/blog/archives/115
*/
#include <stdio.h>
#include <string.h>
char a[] = "abababaababacb";
char b[] = "ababacb";
//P[0]不使用,P[i]表示B串的前i个字符中, 前P[i]个字符和后P[i]个字符相同
int P[7]; //尽管strlen(b)为7,但P[7]用不到,只用P[1]到P[6]
char* KMP(char* A, char* B); //返回B串在A串中的位置 B串:模式串 A串:待匹配串
void InitP(char *B); //将B串(模式串)进行自我匹配
int main()
{
InitP(b);
char *idx = KMP(a, b);
if(!idx)
puts("b is not a's substring.");
else
printf("b is a's substring, the index is %d/n",idx-a);
getchar();
return 0;
}
char* KMP(char *A, char *B)
{
int len1=strlen(A), len2=strlen(B);
int i, j=0; //j代表目前B串中已与A串匹配了的字符的个数
for(i=0; i<len1; ++i)
{
while(j>0 && A[i]!=B[j]) //0...j-1,已匹配了j个字符,sub[j]是sub的第j+1的字符,因为下标从0开始
j = P[j];
if(A[i] == B[j])
++j;
if(j == len2) //当j(B中已匹配了的字符串的个数)与B串本身长度相等时,说明匹配完毕
return A+i-j+1; //此时可计算出指针位置
}
return NULL;
}
/*****************************************************************************
初始化数组P[7],P[i]表示B串的前i个字符中, 前P[i]个字符和后P[i]个字符相同
比如:
char b[] = "ababacb";
p[1]=0
P[2]=0, 因为字符串b[]的前2个字符"ab"不符合条件.
P[3]=1, 因为字符串b[]的前3个字符"aba",其第一个字符和最后一个字符相同
P[4]=2, 因为字符串b[]的前4个字符"abab",其前两个字符和后两个字符相同
P[5]=3, 因为字符串b[]的前5个字符"ababa",其前3个字符和后3个字符相同,都是aba
P[6]=0
函数InitP(char *B)的任务就是根据B串初始化数组P,这其实就是一个对B串进行自我匹配
的过程,与上面的KMP(char *A, char *B)函数很像.
*******************************************************************************/
void InitP(char *B)
{
P[0] = 0;
P[1] = 0;
int i, j=0, len=strlen(B);
for(i=2; i<len; ++i)
{
/*while(j>0 && B[j]!=B[i-1]), 这里的j代表
在比较第i个字符(从1开始数)和B[j]时,前i-1个字符中的前j个字符和后j的字符相同
B[j]代表第j的字符(从1开始数)的下一个字符*/
while(j>0 && B[j]!=B[i-1]) //如果第i个字符和第j个字符的下一个字符(即B[j])不同,则改变j的值,再重新比较
j = P[j];
if(B[j] == B[i-1])
++j;
P[i] = j;
}
}