KMP算法

本文详细介绍了KMP算法,包括算法的核心思想、Next数组的计算方法以及在剪布条、字符串最大值和拼接字符串问题中的应用。KMP算法通过利用错误信息提高匹配效率,优化了字符串搜索性能。
摘要由CSDN通过智能技术生成

1 简介

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。 [1] ^{\texttt{[1]}} [1]

KMP算法的时间复杂度为 O ( n + m ) O(n+m) O(n+m)

原有的传统暴力字符串匹配算法中,当匹配模式串和主串出现错误时,需要退回起始位置,而KMP算法的效率在于,当匹配模式串失败后不会退回,而会根据错误信息继续向后匹配。

KMP算法的提出者之一——唐纳德·克努特(Donald Ervin Knuth) [2] ^{\texttt{[2]}} [2] ,是1974年图灵奖获得者,也是计算机排版系统 TeX \TeX TEX [3] ^{\texttt{[3]}} [3]的发明者。他的著作《计算机程序设计的艺术》,被评为可以与《几何原本》《相对论》相提并论。

2 KMP算法

2.1 Next

border(边界): 指字符串的最长公共前后缀。border的长度必须严格小于原字符串的长度。

例如,字符串 abcdab 的border为 ab

N e x t i Next_i Nexti 指以第 i i i 个字符结尾的前缀(严格前缀)的border的长度。 N e x t Next Next 只针对模式串。

为了方便编程,令字符串和 N e x t Next Next 的下标均从 1 1 1 开始,并把 N e x t i Next_i Nexti 定义为:字符串下标从 1 ∼ i 1\sim i 1i 的子串的border的长度。(易知 N e x t 1 = 0 Next_1=0 Next1=0

下标 i i i12345678910
举例字符串 s s sababcdacab
border--aab--a-aab
N e x t Next Next0012001012

可以发现:

如果 s i = s N e x t i − 1 + 1 s_i=s_{Next_{i-1}+1} si=sNexti1+1(如下图所示,红色部分为上一个子串的border的位置,蓝色部分分别是 s N e x t i − 1 + 1 s_{Next_{i-1}+1} sNexti1+1 s i s_i si),则 N e x t i = N e x t i − 1 + 1 Next_i=Next_{i-1}+1 Nexti=Nexti1+1

在这里插入图片描述

如果 s i = s N e x t N e x t i − 1 + 1 s_i = s_{Next_{Next_{i-1}}+1} si=sNextNexti1+1,同理, N e x t i = N e x t N e x t i − 1 + 1 Next_i=Next_{Next_{i-1}}+1 Nexti=NextNexti1+1

如果 s i = s N e x t N e x t N e x t i − 1 + 1 s_i = s_{Next_{Next_{Next_{i-1}}}+1} si=sNextNextNexti1+1,同理, N e x t i = N e x t N e x t N e x t i − 1 + 1 Next_i=Next_{Next_{Next_{i-1}}}+1 Nexti=NextNextNexti1+1

… … \dots\dots ……

j = N e x t i − 1 j=Next_{i-1} j=Nexti1,不断向前询问是否满足 s i = s j + 1 s_i=s_{j+1} si=sj+1,满足,则 N e x t i = j + 1 Next_i=j+1 Nexti=j+1;反之, j = N e x t j j=Next_j j=Nextj 继续询问,直到 j = 0 j=0 j=0 为止。

代码如下(Next[]s均从下标为 1 1 1 开始):

void get_next(string s) {
    int i, j;
    for (Next[1] = j = 0, i = 2; s[i]; i++) {
        while (j && s[i] != s[j + 1])
            j = Next[j];
        if (s[i] == s[j + 1])
            j++;
        Next[i] = j;
    }
}

2.2 模式匹配

KMP算法的模式匹配思路是:对于匹配失败的模式串,把位置向后移动,使模式串匹配部分的前缀border位置与后缀border位置原来所对应的主串位置相对应。 如果无法移动,向右移动 1 1 1 位。

下标123456789101112说明
举例主串 s s sabacaabaabab-
举例模式串 p p pabab-
N e x t Next Next0012-
操作1 √ \color{green}{√} √ \color{green}{√} √ \color{green}{√} × \color{red}{×} ×匹配错误
ababborder对齐
操作2 √ \color{green}{√} × \color{red}{×} ×匹配错误
abab右移 1 1 1
操作3 × \color{red}{×} ×匹配错误
abab右移 1 1 1
操作4 √ \color{green}{√} × \color{red}{×} ×匹配错误
abab右移 1 1 1
操作5 √ \color{green}{√} √ \color{green}{√} √ \color{green}{√} × \color{red}{×} ×匹配错误
ababborder对齐
操作6 √ \color{green}{√} × \color{red}{×} ×匹配错误
abab右移 1 1 1
操作7 √ \color{green}{√} √ \color{green}{√} √ \color{green}{√} √ \color{green}{√} 匹配成功

注:标部分表示匹配的部分的border。

可以发现:

如果 s i = p N e x t i − 1 + 1 s_i=p_{Next_{i-1}+1} si=pNexti1+1(也就是说, p p p 的前一个border的下 1 1 1 位与 s i s_i si 相匹配,此时就匹配成功了一次),模式串移动到 N e x t i − 1 + 1 Next_{i-1}+1 Nexti1+1

如果 s i = p N e x t N e x t i − 1 + 1 s_i=p_{Next_{Next_{i-1}}+1} si=pNextNexti1+1,模式串移动到 N e x t N e x t i − 1 + 1 Next_{Next_{i-1}}+1 NextNexti1+1

如果 s i = p N e x t N e x t N e x t i − 1 + 1 s_i=p_{Next_{Next_{Next_{i-1}}}+1} si=pNextNextNexti1+1,模式串移动到 N e x t N e x t N e x t i − 1 + 1 Next_{Next_{Next_{i-1}}}+1 NextNextNexti1+1

… … \dots\dots ……

j = N e x t i − 1 j=Next_{i-1} j=Nexti1,不断向前询问是否满足 s i = p j + 1 s_i=p_{j+1} si=pj+1,满足,则 j = j + 1 j=j+1 j=j+1;反之, j = N e x t j j=Next_j j=Nextj 继续询问,直到 j = 0 j=0 j=0 为止。

代码如下(Next[]ps均从下标为 1 1 1 开始):

void KMP(string s, string p) {
    int i, j;
    for (i = 1, j = 0; s[i]; i++) {
        while (j && s[i] != p[j + 1])
            j = Next[j];
        if (s[i] == p[j + 1])
            j++;
        if (!p[j + 1])
            j = Next[j];
    }
}

3 例题

3.1 剪布条

题目描述

对于给定的花布条和小饰条,计算一下能从花布条中尽可能剪出几块小饰条。

题解

简单明了,模板即可。但注意,不应出现模式串两处匹配后重叠的情况。

#include <bits/stdc++.h>
#define endl '\n'
using namespace std;
const int N = 1e5 + 10;
int n, Next[N], ans = 0;
string s, p;
void get_next(string s) { /*some code...*/ }
void KMP(string s, string p) {
    int i, j, prev = 0;
    for (i = 1, j = 0; s[i]; i++) {
        while (j && s[i] != p[j + 1])
            j = Next[j];
        if (s[i] == p[j + 1])
            j++;
        if (!p[j + 1]) { 
            j = Next[j];
            if (prev + p.size() - 1 <= i) { 
            //避免重叠 prev记录前一次匹配的右端点位置
                prev = i;
                ans++;
            }
        }
    }
}
int main() {
    CLOSE;
    while (cin >> s >> p && s != "#") {
        s = " " + s;
        p = " " + p;
        ans = 0;
        get_next(p);
        KMP(s, p);
        cout << ans << endl;
    }
    return 0;
}

3.2 字符串最大值

题目描述

给出一个长度为 n n n 的字符串,求出所有前缀的出现的次数 × \times × 长度的最大值。

题解

不妨这样假设:

长度为 i i i 的前缀出现了 c n t i cnt_i cnti 次,而每次出现的前缀里都有 2 2 2 个长度为 N e x t i Next_i Nexti 的border,每个额外拥有一个长度为 N e x t i Next_i Nexti 的前缀,则 c n t N e x t i cnt_{Next_{i}} cntNexti 应当累加进去 c n t i cnt_i cnti。从后往前求出 c n t cnt cnt 表即可。

//some code...
get_next(s);
for (int i = s.size() - 1; i >= 1; i--) {
    cnt[i]++;
    cnt[Next[i]] += cnt[i];
    ans = max(ans, cnt[i] * i);
}
//some code...

3.3 拼接字符串

题目描述

先有两个字符串 s 1 s1 s1 s 2 s2 s2
a + b a+b a+b 定义为:在 a a a 中找到一个最长后缀,同时其也是 b b b 的前缀,称为重合部分。 a + b a+b a+b 的值为 a a a 去掉重合部分,再拼接上一个完整的 b b b。(例如:abcb + + + cbaa = = = abcbaa
s 1 + s 2 s1+s2 s1+s2 s 1 + s 2 s1+s2 s1+s2 长度较短者(若等长,求字典序较小者)。

题解

不妨利用 N e x t Next Next 数组的性质。

以求 s 1 + s 2 s1+s2 s1+s2 为例:

t = s2 + ' ' + s1 (其中,一个空格表示分隔符,隔开两个字符串,避免所求的 N e x t Next Next 超出了 s 1 s1 s1 s 2 s2 s2 的长度)。此时, t t t 的border(也就是 N e x t ∣ t ∣ − 1 Next_{\mid t\mid - 1} Nextt1)就是重合部分。

利用 get_next() 求出 N e x t Next Next 数组。 s 1 + s 2 s1+s2 s1+s2 的结果为 s 1 s1 s1 拼接上 s 2 s2 s2 去掉border的部分( s 2 N e x t ∣ t ∣ − 1 + 1 ∼ s 2 ∣ s 2 ∣ s2_{Next_{\mid t\mid -1}+1}\sim s2_{\mid s2\mid} s2Nextt1+1s2s2)。

string solve(string s1, string s2) {
    string t = " " + s2 + " " + s1, ans = s1;
    get_next(t);
    ans += s2.substr(Next[t.size() - 1], s2.size() - Next[t.size() - 1]);
    return ans;
}
  • 23
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值