扩展KMP

最新推荐文章于 2023-08-17 12:02:50 发布

focus_best

最新推荐文章于 2023-08-17 12:02:50 发布

阅读量797

点赞数

文章标签： ACM

本文链接：https://blog.csdn.net/u013480600/article/details/22985689

版权

need to review 同时被 2 个专栏收录

61 篇文章 0 订阅

订阅专栏

资料

17 篇文章 0 订阅

订阅专栏

扩展KMP

(下面讨论的所有串的起点都是从0开始计数的)

KMP算法求出ex[i]数组，ex[i]数组表示主串S中以第i个字符为尾字符的后缀与模式串T的前缀的最长公共部分。

扩展KMP求出A[i]数组，A[i]数组表示在主串S中以第i个字符为首字符的前缀与模式串T的前缀最长公共部分。

扩展kmp既是求模式串T和主串S的每一个后缀的最长公共前缀

即令s[i]表示主串中以第i个位置为起始的后缀，则B[i]表示s[i]和模式串的最长公共前缀

显然KMP是求s[i]=模式串长度的情况，所以，扩展KMP是对KMP的拓展

像求KMP的next数组一样，我们先求A[i]，表示模式串(以第i个位置起始)的后缀和模式串的最长公共前缀.其中A[0]=模式串长m,没有意义

然后再利用A[i]求出B[i]

说明一下A的求法，B同理

现在我们要求A[i]，且A[1]---A[i-1]已经求出.

设k为满足下面要求的数:

且1<=k<=i-1，并满足k+A[k]最大

所以T[k]--T[k+A[k]-1]=T[0]--T[A[k]-1]，推出T[i]--T[k+A[k]-1]=T[i-k]--T[A[k]-1]

(有可能k+A[k]-1 <=k ,因为A[k]=0或1)

令L=A[i-k]，若L+i-1<k+A[k]-1，由A是最长公共前缀知A[i]=L，否则，向后匹配，知道字符串失配

并相应更新k.

当用A[]数组计算B数组的时候,用S串与T串对比的情况如下图:

时间复杂度为线性O(m+n)

<span style="font-size:18px;">    j = 0;
    while(1+j<strlen(T)&&T[0+j]==T[1+j])
        j = j + 1;
    A[1]=j;
    int k=1;
    for(int i=2; i<strlen(T); i++)
    {
        int Len = k + A[k] - 1,L = A[i-k];  
        if( L < Len - i + 1 )
            A[i] = L;
        else
        {
            j = max(0,Len -i +1);
            while(i+j<strlen(T)&&T[i+j] == T[0+j])
                j = j + 1;
            A[i] = j,k = i;
        }
    }

    j = 0;
    while(j<strlen(S)&&j<strlen(T)&&T[0+j]==S[0+j])
        j = j + 1;
    B[0] = j,k = 0;
    for(int i=1; i<strlen(S); i++)
    {
        int Len = k + B[k] - 1,L = A[i-k];//该处解释可见上图2
        if( L < Len - i + 1 )
            B[i] = L;
        else
        {
            j = max(0,Len -i +1);
            while(i+j<strlen(S)&&j<strlen(T)&&S[i+j] == T[0+j])
                j = j + 1;
            B[i] = j,k = i;
        }
    }
</span>

下面是c++模板代码:

<span style="font-size:18px;">const int MAXN=1000000+1000;
const int MAXM=10000+1000;
char S[MAXN],T[MAXM];
int B[MAXN],A[MAXM];
int n,m;//分别为S和T串的长度
void EKMP()
{
    n=strlen(S);
    m=strlen(T);
    int j=0;
    while(1+j<m && T[0+j]==T[1+j])
        j++;
    A[1]=j;
    int k=1;//标记当前k+A[k]最大的那个k
    for(int i=2;i<m;i++)
    {
        int len=k+A[k]-1,L=A[i-k];
        if(L<len-i+1)
            A[i]=L;
        else//可以理解为L的长度超过了以i为首的那段序列
        {
            j = max(0,len-i+1);
            while(i+j<m && T[0+j]==T[i+j])
                j++;
            A[i]=j;
            k=i;
        }
    }

    j=0;
    while(j<n && j<m && S[0+j]==T[0+j])
        j++;
    B[0]=j;
    k=0;
    for(int i=1;i<n;i++)
    {
        int len=k+B[k]-1,L=A[i-k];
        if(L<len-i+1)
            B[i]=L;
        else
        {
            j=max(0,len-i+1);
            while(j<m && i+j<n && S[i+j]==T[0+j])
                j++;
            B[i]=j;
            k=i;
        }
    }
}
</span>