扩展KMP
(下面讨论的所有串的起点都是从0开始计数的)
KMP算法求出ex[i]数组,ex[i]数组表示主串S中以第i个字符为尾字符的后缀与模式串T的前缀的最长公共部分。
扩展KMP求出A[i]数组,A[i]数组表示在主串S中以第i个字符为首字符的前缀与模式串T的前缀最长公共部分。
扩展kmp既是求模式串T和主串S的每一个后缀的最长公共前缀
即令s[i]表示主串中以第i个位置为起始的后缀,则B[i]表示s[i]和模式串的最长公共前缀
显然KMP是求s[i]=模式串长度的情况,所以,扩展KMP是对KMP的拓展
像求KMP的next数组一样,我们先求A[i],表示模式串(以第i个位置起始)的后缀和模式串的最长公共前缀.其中A[0]=模式串长m,没有意义
然后再利用A[i]求出B[i]
说明一下A的求法,B同理
现在我们要求A[i],且A[1]---A[i-1]已经求出.
设k为满足下面要求的数:
且1<=k<=i-1,并满足k+A[k]最大
所以T[k]--T[k+A[k]-1]=T[0]--T[A[k]-1],推出T[i]--T[k+A[k]-1]=T[i-k]--T[A[k]-1]
(有可能k+A[k]-1 <=k ,因为A[k]=0或1)
令L=A[i-k],若L+i-1<k+A[k]-1,由A是最长公共前缀知A[i]=L,否则,向后匹配,知道字符串失配
并相应更新k.
当用A[]数组计算B数组的时候,用S串与T串对比的情况如下图:
时间复杂度为线性O(m+n)
<span style="font-size:18px;"> j = 0;
while(1+j<strlen(T)&&T[0+j]==T[1+j])
j = j + 1;
A[1]=j;
int k=1;
for(int i=2; i<strlen(T); i++)
{
int Len = k + A[k] - 1,L = A[i-k];
if( L < Len - i + 1 )
A[i] = L;
else
{
j = max(0,Len -i +1);
while(i+j<strlen(T)&&T[i+j] == T[0+j])
j = j + 1;
A[i] = j,k = i;
}
}
j = 0;
while(j<strlen(S)&&j<strlen(T)&&T[0+j]==S[0+j])
j = j + 1;
B[0] = j,k = 0;
for(int i=1; i<strlen(S); i++)
{
int Len = k + B[k] - 1,L = A[i-k];//该处解释可见上图2
if( L < Len - i + 1 )
B[i] = L;
else
{
j = max(0,Len -i +1);
while(i+j<strlen(S)&&j<strlen(T)&&S[i+j] == T[0+j])
j = j + 1;
B[i] = j,k = i;
}
}
</span>
下面是c++模板代码:
<span style="font-size:18px;">const int MAXN=1000000+1000;
const int MAXM=10000+1000;
char S[MAXN],T[MAXM];
int B[MAXN],A[MAXM];
int n,m;//分别为S和T串的长度
void EKMP()
{
n=strlen(S);
m=strlen(T);
int j=0;
while(1+j<m && T[0+j]==T[1+j])
j++;
A[1]=j;
int k=1;//标记当前k+A[k]最大的那个k
for(int i=2;i<m;i++)
{
int len=k+A[k]-1,L=A[i-k];
if(L<len-i+1)
A[i]=L;
else//可以理解为L的长度超过了以i为首的那段序列
{
j = max(0,len-i+1);
while(i+j<m && T[0+j]==T[i+j])
j++;
A[i]=j;
k=i;
}
}
j=0;
while(j<n && j<m && S[0+j]==T[0+j])
j++;
B[0]=j;
k=0;
for(int i=1;i<n;i++)
{
int len=k+B[k]-1,L=A[i-k];
if(L<len-i+1)
B[i]=L;
else
{
j=max(0,len-i+1);
while(j<m && i+j<n && S[i+j]==T[0+j])
j++;
B[i]=j;
k=i;
}
}
}
</span>