KMP 学习笔记

最新推荐文章于 2024-04-09 15:42:07 发布

RabbieWjy

最新推荐文章于 2024-04-09 15:42:07 发布

阅读量138

点赞数

分类专栏：信息学 # 字符串算法文章标签： 1024程序员节

本文链接：https://blog.csdn.net/RabbieWjy/article/details/121592568

版权

信息学同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

字符串算法

2 篇文章 0 订阅

订阅专栏

文章目录

KMP

（图待补）

前置知识

字符串的基本知识

几个定义

$S (x, y)$ 表示字符串 $S$ 中第 $x$ 到第 $y$ 个字符组成的子串
$p re (S, i)$ 表示字符串 $S$ 中以第 $i$ 个字符为结尾的前缀
$s u f (S, i)$ 表示字符串 $S$ 中以第 $i$ 个字符为开头的后缀

前缀函数

定义字符串 $S$ 的前缀函数 $t$ ，其中 $t (i)$ 为 $p re (S, i)$ 中即为前缀、又为后缀且不为原串的字符串最大长度。

举个例子：
ababac的前缀函数为：
$t (0) = 0$
$t (1) = 0$
$t (2) = 1$ （a）
$t (3) = 2$ （ab）
$t (4) = 3$ （aba）
$t (5) = 0$

例题引入

https://www.luogu.com.cn/problem/P3375

题意

给定主串 $S$ 和模式串 $T$ ，求：

$T$ 在 $S$ 中出现的位置；
求 $T$ 的前缀函数。

暴力做法

我们可以哈希暴力枚举 $S$ 中与 $T$ 长度相等的字符串，比较它们是否与 $T$ 相等。

具体来说，用一个指针 $i$ 表示现在枚举到的字符串左端点，把 $i$ 一格一格往右移，同时比较。

显然，这样的暴力时间复杂度太大了，过不了这题。

一个定理

字符串 $S$ 的一个前缀 $p re (S, i)$ 的所有 border 为 $pre(S,fail_i),pre(S,fail_{fail_i}),\dots$ 。

证明

运用归纳法，当 $i = 0$ 时，显然成立。

当 $i > 0$ 时，已知 $p re (S, i - 1)$ 的 border 集合为 $\{fail_{i-1},fail_{fail_{i-1}},\dots\}$ ，

优化

我们发现，这样的暴力时间复杂度是 $O (nm)$ ，主要耗时在重复比较了很多对字符，比如这个例子：
aaaaaaaab 和 aaab 就重复比较了很多对 a。

考虑优化比较这个过程，有一个很显然的想法：已经比过的就不用比了，尽量利用上之前比较的结果。

来看这一张图：

（我是图）

暴力在比较到 $S_i$ 和 $T_j$ 这一对字符时，发现对不上了。如果按照暴力的做法，指针 $i$ 就会跳回到 $L$ ，然后继续比较。但是，如果我们知道了 $\neq T(1,j - 1)$ 的话，情况就有一些不一样了：

这相当于我们已经预见了 $L^{'} = L + 1$ 时的结果，那就是会对不上。所以， $L^{'} = L + 1$ 这一轮比较就可以被省去。

再推广一下，如果我们知道 $\neq T(1,k)$ ，也就是 $S$ 长为 $k$ 的后缀和 $T$ 长为 $k$ 的前缀不同时， $L^{'} = L + k - 1$ 这一轮比较就可以被省去。

也就是说， $L$ 的下一个有可能可以的位置应该是 $L + k - 1$ ，其中 $k$ 满足 $S (i - k + 1, i) = T (1, k)$ 且所有 $\leq k' \leq k$ 都不满足 $S (i - k^{'} + 1, i) = T (1, k^{'})$ 。

找到了 $L$ 的下一个位置，还不是很行：我们要充分利用已知的信息！

我们已经知道了 $S (i - k + 1, i) = T (1, k)$ ，所以在下一轮比较中， $i^{'}$ 可以直接从 $i + 1$ 开始， $j^{'}$ 直接从 $k + 1$ 开始，也就是 $i$ 继续向后移， $j$ 跳到 $k + 1$ 。

至此，所有信息都已经利用上了，KMP 算法也出来了。

现在，问题就变成了：如何快速求 $k$ 。

观察到， $k$ 指对于每个 $i, j$ ，最小的满足 $S (i - k + 1, i) = T (1, k)$ 的数，即对于每个 $j$ ，最小的满足 $T (j - k + 1, j) = T (1, k)$ 的数，发现 $k$ 和 $S$ 没啥关系。用一个数组 $f ai l$ 记录 $k$ ， $fail_i$ 也可以代表 $p re (T, i)$ 的最长真前缀的长度，使这个真前缀同时也是真后缀（也就是最长 border 的长度）。

考虑使用递推，通过已知的 $fail_1,fail_2,\dots,fail_{i-1}$ 推出 $fail_i$ 。

由定义可知 $T(1,fail_i)=T(i - fail_i+1,i)$ 。所以， $T(1,fail_i-1)=T(i-fail_i+1,i-1)$ 必然成立，也就是说 $T(1,fail_i-1)$ 一定是 $T (1, i - 1)$ 的 border。

显然，如果 $T(fail_{i-1}+1)=T(i)$ ，即如下图，则 $fail_i=fail_{i-1}+1$ 。

（我是图）

否则， $fail_i<fail_{i-1}$ 。由于 $T(1,fail_i - 1)$ 一定是 $T (1, i - 1)$ 的 border，即 $T(1,fail_i-1)=T(i-fail_i+1,i - 1)=T(fail_{i-1}-fail_i+2,fail_{i-1})$ ，如下图。

（我是图）

所以，~~说了那么一大堆没用的东西~~就是说 $T(1,fail_i)$ 一定是 $T(1,fail_{i-1})$ 的 border，下一个最后的可能推出来 $fail_i$ 的位置就是 $fail_{fail_{i-1}}$ 。以此类推，不停地跳 $fail_x$ ，比较 $T (x + 1)$ 和 $T (i)$ 就可以求出 $fail_i$ 了。

算法流程

就像上面说的，先用递推求出 $f ai l$ ：

对于每个 $T (i)$ ， $j = fail_{i-1}$ ，用 $T (j + 1)$ 匹配，匹配不上就不停跳 $fail_j$ ，直到到头或者匹配上。

再匹配主串和文本串：

两个指针 $i$ 和 $j$ 分别指向现在正在匹配的字符。

$i$ 不断右移匹配， $j$ 匹配上了就右移，否则就往前不停跳 $fail_j$ ，直到跳到头或者配上。

代码

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;

char a[1000010],b[1000010];
int kmp[1000010];
int j;

int main()
{
	scanf("%s",a + 1);
	scanf("%s",b + 1);
	int lena = strlen(a + 1),lenb = strlen(b + 1);
	for (int i = 2;i <= lenb;i ++)
	{
		while (j && b[j + 1] != b[i])
			j = kmp[j];
		if (b[j + 1] == b[i]) j ++;
		kmp[i] = j;
	}
	j = 0;
	for (int i = 1;i <= lena;i ++)
	{
		while (j && b[j + 1] != a[i])
			j = kmp[j];
		if (b[j + 1] == a[i]) j ++;
		if (j == lenb)
		{
			printf("%d\n",i - lenb + 1);
			j = kmp[j];
		}
	}
	for (int i = 1;i <= lenb;i ++) printf("%d ",kmp[i]);
}