Knuth Morris Pratt (KMP)算法的证明及实现代码

最新推荐文章于 2022-03-21 21:29:25 发布

TodLeigh

最新推荐文章于 2022-03-21 21:29:25 发布

阅读量2.7k

点赞数

文章标签：算法 c

本文链接：https://blog.csdn.net/TodLeigh/article/details/2955906

版权

    在串的模式匹配中，最简单的BF（Brute-Force，布鲁特－福斯）算法，由于需要回溯，最坏的情况下时间复杂度为O（m*n）.其中m，n分别表示主串和模式串的长度。
    由D.E.Knuth, J.H.Morris和V.R.Pratt三人提出的KMP算法，由于不需要回溯，其时间复杂度可以降到O(m+n)。其中m,n意义同上。
    下面给出KMP算法的一个证明。
    讨论一般情形，设主串S＝“S0 S1 S2 ... Sn-1”, 模式T＝“T0 T1 T2 ... Tm-1”.在进行第 i 趟匹配时，出现以下情况：
    S： S0   S1   ...   Si-j   Si-j+1   ...   Si-1   Si   Si+1   ...   Sn-1
||    ||            ||    `|
                        T0   T1      ...   Tj-1 Tj   Tj+1   ...   Tm-1

即： T0 T1 ... Tj-1 == Si-j Si-j+1 ... Si-1, 且 Si != Tj.     －－－（1）

如果在模式T中，有： T0 T1 ... Tj-2 != T1 T2 ... Tj-1，－－－（2）
则由（1）得：
             T1 T2 ... Tj-1 == Si-j+1 Si-j+2 ... Si-1.   ---(3)
将(3)代入（2），则马上有：
                   T0 T1 ... Tj-2 != Si-j+1 Si-j+2 ...   Si-1.
则显然有：
                   T0 T1 ... Tj-2 Tj-1 != Si-j+1 Si-j+1 ... Si-1 Si.
由上述证明可知：回溯到Si-j+1开始进行匹配必然失败。也就是说，回溯到Si-j+1进行匹配可以不做。那么，考虑回溯到Si-j+2的情况：
    从前面的推理可知，如果有
                   T0 T1 ...   Tj-2 !=   T2 T3 ... Tj
则必然有：
                   T0 T1 ...    Tj-2 !=   Si-j+2   Si-j+3   ... Si .
这样的比较仍然会失败。依此类推，直到对于某一个值k，使得：
      T0 T1 ...   Tk-2   !=   Tj-k+1 Tj-k+2 ... Tj-1 且   T0 T1 ... Tk-1 == Tj-k Tj-k+1 ... Tj-1，
才会有：
        Tj-k   Tj-k+1 ...   Tj-1 ==   Si-k   Si-k+1 ... Si-1 ==   T0 T1 ... Tk-1.
这说明下一次可直接比较 Si 和 Tk，这样，可以直接把第 i 趟比较失败时的模式 T 从当前位置右移 j-k 位。而这里的 k 即为next(j)。
关于next(j)的求法不再证明。求next(j)的算法其实就是上述算法的又一次运用，只不过这时主串和模式串相同。
下面是KMP算法的C实现。假设串的下标从0开始。

const int MAXSIZE = 100;
void getNext(char *T, int next[]){         //求next
    int j = 0, k = -1;
    next[0] = -1;
    while(j < strlen(T)){
       if(　(j　==　-１)　||　(Ｔ[ｊ]　==　Ｔ[ｋ])　){
　　　　　ｊ++;　ｋ++;
　　　　　next[j] = k;
       }else
          k = next[k];
    }
}

int KMP(cahr *S, char *T){
    int next[MAXSIZE], i = 0, j = 0, v;
    getNext(T, next);
    while( (i <　strlen(S)) &&　(j < strlen(T)) ){
         if( j == -1 || S[i] == T[j]){
             i++;
             j++;
         }else
             j = next[j];
    }
    if(j > strlen(T))
         return (i - strlen(T));
    else
         return -1;
}