KMP算法

justin666888

于 2020-07-25 20:10:39 发布

阅读量102

点赞数

分类专栏： C++ C++算法、数据结构、关键字

本文链接：https://blog.csdn.net/justin666888/article/details/107583682

版权

C++ 同时被 2 个专栏收录

63 篇文章 3 订阅

订阅专栏

C++算法、数据结构、关键字

20 篇文章 0 订阅

订阅专栏

KMP算法

前言
KMP
结语

前言

哎呀！我们来刷题吧！

来看看这一道题：

有两个字符串 $S$ 和 $T$
求 $T$ 出现在 $S$ 中的第一个位置
$1\le|S|\le10^6$ $1\le|T|\le10^6$

我和我的小伙伴们都惊呆了，这没法用 $O(|S|\times|T|)$ 做啊，那怎么办呢？

我们就可以用KMP算法了！

KMP

啥是KMP

在计算机科学中，Knuth-Morris-Pratt 字符串查找算法（简称：KMP 算法）可在一个文本串 $T$ 内查找一个模式串 $P$ 的出现位置。该算法通过对这个词在不匹配时本身包含的信息来确定下一个匹配将在哪里开始的发现，从而避免重新检查先前匹配的字符，提高程序运行效率。

具体来说，KMP 算法在匹配前会预处理模式串 $P$ ，得到一个 $f a i l$ 数组。借助 failfailfail 数组，可以在匹配过程中减少很多冗余的匹配操作，由此提高了算法的效率。KMP 算法的时间复杂度为 $\mathcal{O}(n+m)$ ，其中 $n$ 和 $m$ 分别表示两个串的长度。

关于fail数组

KMP 算法的核心是 $f a i l$ 数组对于字符串 $s=s_0 s_1\ldots s_{n-1}$ ,如果 jjj 是满足 $s_{0\ldots j}=s_{i-j \ldots i}$ 的最大值,则 $fail_i=j$ (注意 $j < i$ ),其中 $s_{a \ldots b}$ 表示字符串 $s$ 从下标 $a$ 到下标 $b$ 的子串,即 $s_as_{a+1}\ldots s_{b-1}s_b$ 对于不存在 $s_{0\ldots j}=s_{i-j \ldots i}$ 的情况, $fail_i=-1$

例如,对于字符串aababaab,则 $f a i l$ 值如下表所示：

	`a`	`a`	`b`	`a`	`b`	`a`	`a`	`b`
$f a i l$	$- 1$	$0$	$- 1$	$0$	$- 1$	$0$	$1$	$2$

匹配过程

理解了 $f a i l$ ,我们先不急着研究怎么计算 $f a i l$ ,而是先看看如何借助 $f a i l$ 值快速地进行字符串匹配

我们假设 $f a i l$ 数组已经正确计算出来了。
在这里插入图片描述对于上图比较过程，当’a’和’?‘和比较的时候比较失败了，那么我们需要把母串的起始位置移动到下一个位置。对于 $2$ 指向的匹配，这时候我们没有必要去从头开始一个一个比较，我们已经知道红色这一整块中间必然会有地方失配（失配就是匹配失败），为什么呢？因为我们知道 $f a i l [i] = 1$ ，如果红色的块能完美匹配，那么 $f a i l [i]$ 应该等于 $4$ ，这和已知的 $f a i l [i] = 1$ 矛盾。第 $3$ , $4$ 次匹配过程也是同样的道理，没必要比较了，根据已知信息可以推导出来一定不可能匹配上了。所以我们直接跳到 $f a i l [i] + 1$ 的位置进行匹配，也就是直接跳到匹配 $5$ ，因为’?'前面的串我们知道一定能和 $f a i l [i] + 1$ 前面的串匹配。这就是 KMP 匹配的本质原理，利用已经计算过的信息加速匹配过程。

板子

#include <iostream>
#include <cstring>
using namespace std;
const int maxn = 100;
int fail[maxn];
void getFail(char *P){
    int m=strlen(P);
    fail[0]=-1;
    for(int i=1;i<m;i++)
    {
        int j=fail[i-1];
        while(j>=0 && P[j+1]!=P[i]){
            j=fail[j];
        }
        if(P[j+1]==P[i]){
            j++;
        }
        fail[i]=j;
    }
}
int KMP(char *T,char *P){
    int n=strlen(T),m=strlen(P);
    int j=-1;
    for(int i=0;i<n;i++){
        while(j>=0 && P[j+1]!=T[i]){
            j=fail[j];
        }
        if(P[j+1]==T[i]){
            j++;
            if(j+1==m){
                return i-m+1;
            }
        }
    }
    return -1;
}
int main() {
    char s[maxn],t[maxn];
    cin>>s>>t;
    getFail(t);
    cout<<KMP(s,t)<<endl;
    return 0;
}

解释代码

int KMP(char *T,char *P){
    int n=strlen(T),m=strlen(P);
    int j=-1;
    for(int i=0;i<n;i++){
        while(j>=0 && P[j+1]!=T[i]){
            j=fail[j];
        }
        if(P[j+1]==T[i]){
            j++;
            if(j+1==m){
                return i-m+1;
            }
        }
    }
    return -1;
}

KMP板子

void getFail(char *P){
    int m=strlen(P);
    fail[0]=-1;
    for(int i=1;i<m;i++)
    {
        int j=fail[i-1];
        while(j>=0 && P[j+1]!=P[i]){
            j=fail[j];
        }
        if(P[j+1]==P[i]){
            j++;
        }
        fail[i]=j;
    }
}