一,图解分析
首先是有母串T,和字串P。先构建一个数组B。
数组B要装如和P的size一样多的数字。比如在这里我需要构建一个大小为5的int数组。
根据子字符串的子串前缀开始排列。
我们可以看到,从第一行到第五行,每一行,前缀后缀最长相等长度分别是,0,0,1,2,0
设我们的B数组开头为-1,将以上的数组最后一位去掉,得到的B数组为 -1,0,0,1,2
此时将B数组与字串对正。
接下来的操作是开始匹配,发现,在字串P的位置3时,匹配失败,我们要做的是将位置1移到位置三的位置。
我们会发现,这样就可以利用前后缀最长长度为1的原理,避开中间重复的ab,实现比暴力匹配更方便的算法。就这样,一次操作,直到P的末尾到达T的末尾,也就是从左到右移动了T.size()-P.size()个长度。但暴力运算移动了这么多次,kmp算法移动的次数会少很多。
二,B数组的算法实现
void prefix_table(char pattern[],int prefix[],n)
{
prefix[0] = 0;
int len = 0;
int i=1;//因为是从第一个字母开始比较
while(i<n)
{
if(pattern[i] == pattern[len])
{
len++;
prefix[i] = len;
i++;
}
else//当不相等时,会有很多细节。。
{
}
}
此时在位置8,发现与位置3不匹配。但不能直接填零。
用斜着对的方式,得到len=prefix[len-1]
这时要加前提条件就是len>0
else
{
if(len>0) {
len = prefix[len-1];
}
else{
prefix[i] = len;
i++;
}
}
接下来,将prefix的开头设成-1,将所有元素往后移。
for(int i =n-1;i>0;i--)
{
prefix[i]=prefix[i-1];
}
prefix[0]=-1;
数组实现完成。
void prefix_table(char pattern[],int prefix[],n)
{
prefix[0] = 0;
int len = 0;
int i=1;//因为是从第一个字母开始比较
while(i<n)
{
if(pattern[i] == pattern[len])
{
len++;
prefix[i] = len;
i++;
}
else
{
if(len>0) {
len = prefix[len-1];
}
else{
prefix[i] = len;
i++;
}
}
}
for(int i =n-1;i>0;i--)
{
prefix[i]=prefix[i-1];
}
prefix[0]=-1;
}
三,查找字符串的实现
规定,haystack的长度为 m,needle的长度为n,用i指haystack,j指needle
int kmp( string haystack,string needle)
{ int i=0;
int j=0;
int n=needle.size();
int m=haystack.size();
int* prefix;
prefix=malloc(sizeof(int)*n);
prefix_table(needle,prefix,n);
while(i<m){
if(j==n-1&&needle[j]==haystack[i])
{
return i-j;
//如果haystack中有不止一个needle 可以通过,j=prifix[j]继续匹配;
}
if(needle[i]== haystack[j])
{
i++;j++;
}
else
{
j=prefix[j];
if(j==-1)
{
i++;j++;
}
}
}