KMP 算法详解

上一篇题解:AcWing 84. 求1+2+…+n - AcWing

KMP 算法详解

KMP 算法详解

KMP 算法是一个十分高效的字符串查找算法,目的是在一个字符串 s 中,查询 s 是否包含子字符串 p,若包含,则返回 p 在 s 中起点的下标。

KMP 算法全称为 Knuth-Morris-Pratt 算法,由 Knuth 和 Pratt 在1974年构思,同年 Morris 也独立地设计出该算法,最终由三人于1977年联合发表。

举一个简单的例子,在字符串 s = ababcabababca 中查找子字符串 p = abababca,如果暴力查找,我们会遍历 s 中的每一个字符,若 s[i] = p[0],则向后查询 p.length() 位是否都相等。这种朴素的暴力的算法复杂度为 O(m×n),其中 m 和 n 分别是 p 和 s 的长度。

KMP 算法可以方便地简化这一查询的时间复杂度,达到 O(m+n)。

1. PMT 序列

PMT 序列是 KMP 算法的核心,即 Partial Match Table(部分匹配表)。举个例子:

charabababca
index01234567
PMT00123401

PMT 的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

  • PMT[0] = 0: 字符串 a 既没有前缀,也没有后缀;
  • PMT[1] = 0: 字符串 ab 前缀集合为 {a},后缀集合为 {b},没有交集;
  • PMT[2] = 1: 字符串 aba 前缀集合为 {a, ab},后缀集合为 {ba, a},交集为 {a},交集元素的最长长度为1;
  • PMT[3] = 2: 字符串 abab 前缀集合为 {a, ab, aba},后缀集合为 {bab, ab, b},交集为 {ab},交集元素的最长长度为2;
  • …… 以此类推。

2. 算法主体

现在我们已经知道了 PMT 序列的含义,那么假设在 PMT 序列已经给定的情况下,如何加速字符串匹配算法?

  1. tar 存储 s 的下标,从 0 开始,若 tar > s.length() - 1, 代表匹配失败;
  2. pos 存储 p 的下标,从 0 开始,若 s[tar] != p[pos],则 pos 走到下一个可能匹配的位置

Step 1:

Step 2:

Step 3:

Step 4:

/**
 * @brief KMP algorithm: A string-searching algorithm.
 * 
 * @param s Source string.
 * @param p Search pattern.
 * @return int The first index of s's substring, which equals to p. If not found, return -1.
 */
int KMP(string s, string p) {
    int tar = 0;                    /** Index of source string s */
    int pos = 0;                    /** Index of pattern string p */

    vector<int> PMT = genPMT(p);    /** Pattern p's PMT sequence */

    while(tar < s.length()) {
        if(s[tar] == p[pos]) {      /** If s[tar] == p[pos], go step forward */
            tar++;
            pos++;
        }
        else if(pos)                /** Failed map, go to the last map index of p */
            pos = PMT[pos - 1];
        else                        /** pos[0] failed map, go to the next s's index */
            tar++;

        if(pos == p.length())       /** Mapping success */
            return tar - pos;
    }
}

3. 生成 PMT 序列

快速生成 PMT 序列,是 KMP 算法的精髓所在,其核心思想是 自己与自己做匹配

Step 1:

Step 2:

Step 3:

Step 4:

/**
 * @brief KMP algorithm: Generate PMT sequence.
 * 
 * @param p Search pattern.
 * @return vector<int> PMT sequence.
 */
vector<int> genPMT(string p) {
    vector<int> PMT{ 0 };       /** PMT[0] = 0 always stand up. */
    int x = 1;                  /** Index of pattern string */
    int now = 0;

    while(x < p.length()) {
        if(p[now] == p[x]) {    /** If p[now] == p[x], go step forward */
            now++;
            x++;
            PMT.push_back(now);
        }
        else if(now)            /** Failed map, go to the last map index of p */
            now = PMT[now - 1];
        else {                  /** p[0] failed map, no intersection */
            PMT.push_back(0);
            x++;
        }
    }
    return PMT;
}
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值