KMP算法

Jianghaoyu123456

已于 2024-04-13 18:37:36 修改

阅读量1.6k

点赞数 23

分类专栏： Y2 文章标签：算法 c++ 字符串

于 2024-03-25 21:36:11 首次发布

本文链接：https://blog.csdn.net/jhy20100420zzz/article/details/137026578

版权

Y2 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文详细介绍了KMP算法，包括算法的核心思想、Next数组的计算方法以及在剪布条、字符串最大值和拼接字符串问题中的应用。KMP算法通过利用错误信息提高匹配效率，优化了字符串搜索性能。

摘要由CSDN通过智能技术生成

1 简介

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。 $^{\texttt{[1]}}$

KMP算法的时间复杂度为 $O (n + m)$ 。

原有的传统暴力字符串匹配算法中，当匹配模式串和主串出现错误时，需要退回起始位置，而KMP算法的效率在于，当匹配模式串失败后不会退回，而会根据错误信息继续向后匹配。

KMP算法的提出者之一——唐纳德·克努特（Donald Ervin Knuth） $^{\texttt{[2]}}$ ，是1974年图灵奖获得者，也是计算机排版系统 $\TeX$ $^{\texttt{[3]}}$ 的发明者。他的著作《计算机程序设计的艺术》，被评为可以与《几何原本》《相对论》相提并论。

2 KMP算法

2.1 Next

border（边界）： 指字符串的最长公共前后缀。border的长度必须严格小于原字符串的长度。

例如，字符串 abcdab 的border为 ab。

$Next_i$ ： 指以第 $i$ 个字符结尾的前缀（严格前缀）的border的长度。 $N e x t$ 只针对模式串。

为了方便编程，令字符串和 $N e x t$ 的下标均从 $1$ 开始，并把 $Next_i$ 定义为：字符串下标从 $1\sim i$ 的子串的border的长度。（易知 $Next_1=0$ ）

下标 $i$	1	2	3	4	5	6	7	8	9	10
举例字符串 $s$	a	b	a	b	c	d	a	c	a	b
border	-	-	a	ab	-	-	a	-	a	ab
$N e x t$	0	0	1	2	0	0	1	0	1	2

可以发现：

如果 $s_i=s_{Next_{i-1}+1}$ （如下图所示，红色部分为上一个子串的border的位置，蓝色部分分别是 $s_{Next_{i-1}+1}$ 和 $s_i$ ），则 $Next_i=Next_{i-1}+1$ ；

在这里插入图片描述

如果 $s_i = s_{Next_{Next_{i-1}}+1}$ ，同理， $Next_i=Next_{Next_{i-1}}+1$ ；

如果 $s_i = s_{Next_{Next_{Next_{i-1}}}+1}$ ，同理， $Next_i=Next_{Next_{Next_{i-1}}}+1$ ；

$\dots\dots$

令 $j=Next_{i-1}$ ，不断向前询问是否满足 $s_i=s_{j+1}$ ，满足，则 $Next_i=j+1$ ；反之， $j=Next_j$ 继续询问，直到 $j = 0$ 为止。

代码如下（Next[]和s均从下标为 $1$ 开始）：

void get_next(string s) {
    int i, j;
    for (Next[1] = j = 0, i = 2; s[i]; i++) {
        while (j && s[i] != s[j + 1])
            j = Next[j];
        if (s[i] == s[j + 1])
            j++;
        Next[i] = j;
    }
}

2.2 模式匹配

KMP算法的模式匹配思路是：对于匹配失败的模式串，把位置向后移动，使模式串匹配部分的前缀border位置与后缀border位置原来所对应的主串位置相对应。 如果无法移动，向右移动 $1$ 位。

下标	1	2	3	4	5	6	7	8	9	10	11	12	说明
举例主串 $s$	a	b	a	c	a	a	b	a	a	b	a	b	-
举例模式串 $p$	a	b	a	b									-
$N e x t$	0	0	1	2									-
操作1	$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	$\color{red}{×}$									匹配错误
			a	b	a	b							border对齐
操作2			$\color{green}{√}$	$\color{red}{×}$									匹配错误
				a	b	a	b						右移 $1$ 位
操作3				$\color{red}{×}$									匹配错误
					a	b	a	b					右移 $1$ 位
操作4					$\color{green}{√}$	$\color{red}{×}$							匹配错误
						a	b	a	b				右移 $1$ 位
操作5						$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	$\color{red}{×}$				匹配错误
								a	b	a	b		border对齐
操作6								$\color{green}{√}$	$\color{red}{×}$				匹配错误
									a	b	a	b	右移 $1$ 位
操作7									$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	$\color{green}{√}$	匹配成功

注：标黄部分表示匹配的部分的border。

可以发现：

如果 $s_i=p_{Next_{i-1}+1}$ （也就是说， $p$ 的前一个border的下 $1$ 位与 $s_i$ 相匹配，此时就匹配成功了一次），模式串移动到 $Next_{i-1}+1$ ；

如果 $s_i=p_{Next_{Next_{i-1}}+1}$ ，模式串移动到 $Next_{Next_{i-1}}+1$ ；

如果 $s_i=p_{Next_{Next_{Next_{i-1}}}+1}$ ，模式串移动到 $Next_{Next_{Next_{i-1}}}+1$ ；

$\dots\dots$

令 $j=Next_{i-1}$ ，不断向前询问是否满足 $s_i=p_{j+1}$ ，满足，则 $j = j + 1$ ；反之， $j=Next_j$ 继续询问，直到 $j = 0$ 为止。

代码如下（Next[]，p和s均从下标为 $1$ 开始）：

void KMP(string s, string p) {
    int i, j;
    for (i = 1, j = 0; s[i]; i++) {
        while (j && s[i] != p[j + 1])
            j = Next[j];
        if (s[i] == p[j + 1])
            j++;
        if (!p[j + 1])
            j = Next[j];
    }
}

3 例题

3.1 剪布条

题目描述

对于给定的花布条和小饰条，计算一下能从花布条中尽可能剪出几块小饰条。

题解

简单明了，模板即可。但注意，不应出现模式串两处匹配后重叠的情况。

#include <bits/stdc++.h>
#define endl '\n'
using namespace std;
const int N = 1e5 + 10;
int n, Next[N], ans = 0;
string s, p;
void get_next(string s) { /*some code...*/ }
void KMP(string s, string p) {
    int i, j, prev = 0;
    for (i = 1, j = 0; s[i]; i++) {
        while (j && s[i] != p[j + 1])
            j = Next[j];
        if (s[i] == p[j + 1])
            j++;
        if (!p[j + 1]) { 
            j = Next[j];
            if (prev + p.size() - 1 <= i) { 
            //避免重叠 prev记录前一次匹配的右端点位置
                prev = i;
                ans++;
            }
        }
    }
}
int main() {
    CLOSE;
    while (cin >> s >> p && s != "#") {
        s = " " + s;
        p = " " + p;
        ans = 0;
        get_next(p);
        KMP(s, p);
        cout << ans << endl;
    }
    return 0;
}

3.2 字符串最大值

题目描述

给出一个长度为 $n$ 的字符串，求出所有前缀的出现的次数 $\times$ 长度的最大值。

题解

不妨这样假设：

长度为 $i$ 的前缀出现了 $cnt_i$ 次，而每次出现的前缀里都有 $2$ 个长度为 $Next_i$ 的border，每个额外拥有一个长度为 $Next_i$ 的前缀，则 $cnt_{Next_{i}}$ 应当累加进去 $cnt_i$ 。从后往前求出 $c n t$ 表即可。

//some code...
get_next(s);
for (int i = s.size() - 1; i >= 1; i--) {
    cnt[i]++;
    cnt[Next[i]] += cnt[i];
    ans = max(ans, cnt[i] * i);
}
//some code...

3.3 拼接字符串

题目描述

先有两个字符串 $s 1$ 和 $s 2$ 。
$a + b$ 定义为：在 $a$ 中找到一个最长后缀，同时其也是 $b$ 的前缀，称为重合部分。 $a + b$ 的值为 $a$ 去掉重合部分，再拼接上一个完整的 $b$ 。（例如：abcb $+$ cbaa $=$ abcbaa）
求 $s 1 + s 2$ 和 $s 1 + s 2$ 长度较短者（若等长，求字典序较小者）。

题解

不妨利用 $N e x t$ 数组的性质。

以求 $s 1 + s 2$ 为例：

令 t = s2 + ' ' + s1 (其中，一个空格表示分隔符，隔开两个字符串，避免所求的 $N e x t$ 超出了 $s 1$ 或 $s 2$ 的长度）。此时， $t$ 的border（也就是 $Next_{\mid t\mid - 1}$ ）就是重合部分。

利用 get_next() 求出 $N e x t$ 数组。 $s 1 + s 2$ 的结果为 $s 1$ 拼接上 $s 2$ 去掉border的部分（ $s2_{Next_{\mid t\mid -1}+1}\sim s2_{\mid s2\mid}$ ）。

string solve(string s1, string s2) {
    string t = " " + s2 + " " + s1, ans = s1;
    get_next(t);
    ans += s2.substr(Next[t.size() - 1], s2.size() - Next[t.size() - 1]);
    return ans;
}

Jianghaoyu123456

关注

23
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
KMP算法

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。[1][1]KMP算法的时间复杂度为OnmO(n+m)Onm。原有的传统暴力字符串匹配算法中，当匹配模式串和主串出现错误时，需要退回起始位置，而KMP算法的效率在于，当匹配模式串失败后不会退回，而会根据错误信息继续向后匹配。KMP算法的提出者之一——
复制链接

扫一扫

专栏目录