kmp是一种模板字符串跟文章对比,查询文章是否有模板字符串的算法。
kmp最重要的就是对next数组的理解跟建立:
首先看暴力的算法,对于模板串一个个去跟文章对比,如果不匹配,则退回模板串最开始重新对比,这样的算法显然时间复杂度很高,因此就有了kmp的诞生。
next数组是对于长度为s的字符串他的前i个字母构成的子串中,最长的即使子串前缀又是后缀的长度记为next[i]。
构建next数组的方法:
int nex[1000005];
char a[1000005];
void get_next()
{
int i=0,j=-1;
nex[0]=-1;
while(a[i])
{
if(j==-1||a[i]==a[j])
{
nex[++i]=++j;
}
else
j=nex[j];
}
}
next数组的应用:
1.对于循环节问题,n长度的字符串是由部分子串循环构成的,求最小循环节即为:字符串总长减去最大相同的前缀后缀,即n-next[n]得到的结果就是最小循环节长度。
求最大循环次数也是相同思路,最后用n/(n-next[i])
2.找最短的相同前后缀,对于一个字符串,next数组直接求值求出来的必然是最长的相同前后缀,那么怎么求最短的相同前后缀呢,可以从最长的入手,向前递推,直到next[j]=0,则j的长度就是我们想要的最短的相同前后缀。可在求出j值后优化next数组:
for(int i=1;i<=n;i++)
{
int j=i;
while(nex[j]>0)
j=nex[j];
if(nex[i]!=0)
nex[i]=j;
ans+=(i-j);
}
kmp算法:
模板串与文章对比,失配的话就回到模板串的next值再继续进行比对:
void get_next(int len)
{
net[0]=-1;
int i=0,j=-1;
while(i<len)
{
if(j==-1||w[i]==w[j])
{
i++;
j++;
net[i]=j;
}
else
j=net[j];
}
}
int kmp()
{
int len1,len2,i,j;
len2=strlen(w);
get_next(len2);
i=0,j=0;
len1=strlen(T);
int ans=0;
while(i<len1)
{
if(j==-1||T[i]==w[j])
{
i++;
j++;
}
else
j=net[j];
if(j==len2)
ans++,j=0,flag=1;;
}
return ans;
}