问题:在信息检索中查找某段信息的位置
例如:在S=“ababaababcb”中查找字符串T=“ababc”的位置(S称为主串,T称为模板)
一、KMP的思想:
如果按照暴力算法来操作的话,要是某个字符T[j]和主串不匹配,就得从头再来了。要是T[j]前有两个字符串一毛一样(比如下图),还从头再来,不是血亏啊?
序号 0 1 2 3 4
S(主串) a b a b a
|| || || ||
T(模板) a b a b c
可以看出,T[4]前有两个字符串相等,即 T[0]T[1]=T[2]T[3]=ab
因为 T[4] != S[4],所以要重新开始匹配
如果从T[0]开始重新匹配的话,本来T[2]T[3]就已经和S[2]S[3]匹配上了,在T[0]T[1]=T[2]T[3]的前提下,
你还要再判断一遍S[2]S[3]和T[0]T[1]一不一样,很明显浪费了时间。
KMP算法的思想正是基于此:T[n]前那两个一模一样的的字符串分别称为真前,后缀。对于真前缀,直接免检了,从真前缀后面那个字符开始匹配
比如上面那个例子,下次重新开始匹配完全不必从T[0]开始,直接从真前缀T[0]T[1]的后一位:T[2]开始就行了啊。
对于T模板的每个字符T[j],都有一个这样的值next[j]:当T[j]!=S[n]时,令j=next[j](从T[next[j]]开始匹配),缩短匹配时间。
求next数组:
模板T=“ababc”
1.next[0]:
当T[0]!=S[n]时,T[0]前面没有字符串,所以我们记next[0]=-1
个人观点:next[0]=0也行啊,毕竟第一个字符串都匹配不上,不应该从头(T[0])开始吗?
可能这种情况有些不同,要用负数(比如-1)特别标记一下吧
2.next[1]
T[1]!=S[n]时,T[1]前面只有一个字符串T[0]。还是得老老实实地从头开始匹配过,所以next[1]=0
3.next[2]
T[2]!=S[n]时,T[2]前面的两个字符串T[0]!=T[1],没有真前后缀。还得从头来啊,所以next[2]=0
4.next[3]
T[3]!=S[n]时,T[3]前面有三个字符串,而且T[0]=T[2]!T[0]为真前缀,T[2]为真后缀。
对于T[0]自然是免检了,所以我们从T[1]开始匹配,所以next[3]=1
5.next[4]
T[4]!=S[n]时(好可惜啊),T[4]前面有四个字符串,而且T[0]T[1]=T[2]T[3],同上,对于真前缀T[0]T[1]
我们是免检的,匹配时从T[2]开始就行了,所以next[4]=2
由此得出:next数组为{-1,0,0,1,2}
由next值的定义,用三重循环是很容易求出来的,但是时间复杂度O(m^3),费时费力。还有一种O(m)级别的算法,以后有时间再补充。
二、代码
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
void getNext(char T[],int next[]){
int i,j,len;
next[0]=-1;
for(j=1;T[j]!='\0';j++){
for(len=j-1;len>=1;len--){
for(i=0;i<len;i++)
if(T[i]!=T[j-len+i]) break;
if(i==len){
next[j]=len;
break;
}
}
if(len<1)next[j]=0;
}
}
int kmp(char s[],char t[]){
int next[1000];
getNext(t,next);
int i=0,j=0;
while(s[i]!='\0' && t[j]!='\0'){
if(s[i]==t[j]){
i++;j++;
}else{
j=next[j];
if(j==-1){i++;j++;}
}
}
if(t[j]=='\0') return (i-strlen(t)+1);
else return 0;
}
int main(){
char s[1000],t[1000];
scanf("%s",&s);
scanf("%s",&t);
printf("%d\n",kmp(s,t));
return 0;
}