KMP算法是一种改进的字符串匹配算法,关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。不是把"搜索位置"移回已经比较过的位置,而是继续把它向后移,这样就提高了效率。具体实现就是实现一个next数组。
今天又重新看了一遍,在朋友的帮助下,算是又深入的了解了一层,next数组每一位保存的是该位之前(包括该位,有的写法为next[q+1]=k,则表示不包括该位,其实是一样,只是将数组后移一位,看怎么定义了)的字符串所有前缀和后缀最大公共长度值,其中q为后缀中的最后一个字符下标,k为前缀中最后一个字符下标,在循环中如果相同,则next数组表示的该位前后缀长度自然加1,如果不相同,则需要剪短后缀的长度,当然是从原来后缀中较前的部分开始截取,直到当前的q位(这个过程可以不用管,因为可以对应到前缀中处理,就是因为前k-1位已经匹配好了),同理要匹配的前缀也要从前剪短,但此时就已经不是前缀了,但是正好可以利用前缀中最后一位前一个的next数组值,即next[k-1](如果前面描述中为不包含当前位的写法,则为next[k]的值),表示缩短前缀,而该next值恰好对应缩短的前缀最后一个字符下标(此时又转换为真正的前缀了),于是又可以继续比较该位来判断公共前后缀长,直到相同或者到头为0为止。
#include <cstdio>
#include <cstdlib>
#include <iostream>
#include <cstring>
#include <cmath>
using namespace std;
void getNext(const char P[],int next[]) //计算最大前后缀长度next[]
{
int q,k;//q:模版字符串下标;k:最大前后缀长度
int m = strlen(P);
next[0] = 0;//模版字符串的第一个字符的最大前后缀长度为0
for (q = 1,k = 0; q < m; ++q)//for循环,从第二个字符开始,依次计算每一个字符对应的next值
{
while(k > 0 && P[q] != P[k])//递归的求出P[0]···P[q]的最大的相同的前后缀长度k
k = next[k-1];
if (P[q] == P[k])
{
k++;
}
next[q] = k;
}
}
int kmp(const char T[],const char P[],int next[])
{
int n,m;
int i,q;
int count=0;
n = strlen(T);
m = strlen(P);
getNext(P,next);
for (i = 0,q = 0; i < n; ++i)
{
while(q > 0 && P[q] != T[i])
q = next[q-1];
if (P[q] == T[i])
{
q++;
}
if (q == m)
{
count++;
}
}
return count;
}
char T[1000010];
char P[10010];
int main()
{
int i,N;
int next[10010];
while(cin>>N)
{
memset(next,0,sizeof(next));
for(i=1;i<=N;i++)
{
cin>>P;
cin>>T;
cout<<kmp(T,P,next)<<endl;
}
}
return 0;
}
参考:http://www.cnblogs.com/c-cloud/p/3224788.html
关于KMP算法的优化,在于优化next数组的计算上。还不是很了解,只是加强了next数组的定义。