KMP 学习笔记

KMP

(图待补)

前置知识

  • 字符串的基本知识

几个定义

  1. S ( x , y ) S(x,y) S(x,y) 表示字符串 S S S 中第 x x x 到第 y y y 个字符组成的子串
  2. p r e ( S , i ) pre(S,i) pre(S,i) 表示字符串 S S S 中以第 i i i 个字符为结尾的前缀
  3. s u f ( S , i ) suf(S,i) suf(S,i) 表示字符串 S S S 中以第 i i i 个字符为开头的后缀

前缀函数

定义字符串 S S S前缀函数 t t t,其中 t ( i ) t(i) t(i) p r e ( S , i ) pre(S,i) pre(S,i) 中即为前缀、又为后缀且不为原串的字符串最大长度。

举个例子:
ababac的前缀函数为:
t ( 0 ) = 0 t(0)=0 t(0)=0
t ( 1 ) = 0 t(1)=0 t(1)=0
t ( 2 ) = 1 t(2)=1 t(2)=1a
t ( 3 ) = 2 t(3)=2 t(3)=2ab
t ( 4 ) = 3 t(4)=3 t(4)=3aba
t ( 5 ) = 0 t(5)=0 t(5)=0

例题引入

https://www.luogu.com.cn/problem/P3375

题意

给定主串 S S S 和模式串 T T T,求:

  1. T T T S S S 中出现的位置;
  2. T T T 的前缀函数。

暴力做法

我们可以哈希暴力枚举 S S S 中与 T T T 长度相等的字符串,比较它们是否与 T T T 相等。

具体来说,用一个指针 i i i 表示现在枚举到的字符串左端点,把 i i i 一格一格往右移,同时比较。

显然,这样的暴力时间复杂度太大了,过不了这题。

一个定理

字符串 S S S 的一个前缀 p r e ( S , i ) pre(S,i) pre(S,i) 的所有 border 为 p r e ( S , f a i l i ) , p r e ( S , f a i l f a i l i ) , … pre(S,fail_i),pre(S,fail_{fail_i}),\dots pre(S,faili),pre(S,failfaili),

证明

运用归纳法,当 i = 0 i=0 i=0 时,显然成立。

i > 0 i>0 i>0 时,已知 p r e ( S , i − 1 ) pre(S,i-1) pre(S,i1) 的 border 集合为 { f a i l i − 1 , f a i l f a i l i − 1 , …   } \{fail_{i-1},fail_{fail_{i-1}},\dots\} {faili1,failfaili1,}

优化

我们发现,这样的暴力时间复杂度是 O ( n m ) O(nm) O(nm),主要耗时在重复比较了很多对字符,比如这个例子:
aaaaaaaabaaab 就重复比较了很多对 a

考虑优化比较这个过程,有一个很显然的想法:已经比过的就不用比了,尽量利用上之前比较的结果。

来看这一张图:

(我是图)

暴力在比较到 S i S_i Si T j T_j Tj 这一对字符时,发现对不上了。如果按照暴力的做法,指针 i i i 就会跳回到 L L L,然后继续比较。但是,如果我们知道了 S ( L + 1 , i ) ≠ T ( 1 , j − 1 ) S(L + 1,i) \neq T(1,j - 1) S(L+1,i)=T(1,j1) 的话,情况就有一些不一样了:

这相当于我们已经预见了 L ′ = L + 1 L'=L+1 L=L+1 时的结果,那就是会对不上。所以, L ′ = L + 1 L'=L+1 L=L+1 这一轮比较就可以被省去。

再推广一下,如果我们知道 S ( i − k + 1 , i ) ≠ T ( 1 , k ) S(i-k+1,i) \neq T(1,k) S(ik+1,i)=T(1,k),也就是 S S S 长为 k k k 的后缀和 T T T 长为 k k k 的前缀不同时, L ′ = L + k − 1 L'=L+k-1 L=L+k1 这一轮比较就可以被省去。

也就是说, L L L 的下一个有可能可以的位置应该是 L + k − 1 L+k-1 L+k1,其中 k k k 满足 S ( i − k + 1 , i ) = T ( 1 , k ) S(i-k+1,i) = T(1,k) S(ik+1,i)=T(1,k) 且所有 1 ≤ k ′ ≤ k 1 \leq k' \leq k 1kk 都不满足 S ( i − k ′ + 1 , i ) = T ( 1 , k ′ ) S(i-k'+1,i)=T(1,k') S(ik+1,i)=T(1,k)

找到了 L L L 的下一个位置,还不是很行:我们要充分利用已知的信息!

我们已经知道了 S ( i − k + 1 , i ) = T ( 1 , k ) S(i-k+1,i)=T(1,k) S(ik+1,i)=T(1,k),所以在下一轮比较中, i ′ i' i 可以直接从 i + 1 i + 1 i+1 开始, j ′ j' j 直接从 k + 1 k+1 k+1 开始,也就是 i i i 继续向后移, j j j 跳到 k + 1 k+1 k+1

至此,所有信息都已经利用上了,KMP 算法也出来了。

现在,问题就变成了:如何快速求 k k k

观察到, k k k 指对于每个 i , j i,j i,j,最小的满足 S ( i − k + 1 , i ) = T ( 1 , k ) S(i-k+1,i)=T(1,k) S(ik+1,i)=T(1,k) 的数,即对于每个 j j j,最小的满足 T ( j − k + 1 , j ) = T ( 1 , k ) T(j - k+1,j)=T(1,k) T(jk+1,j)=T(1,k) 的数,发现 k k k S S S 没啥关系。用一个数组 f a i l fail fail 记录 k k k f a i l i fail_i faili 也可以代表 p r e ( T , i ) pre(T,i) pre(T,i) 的最长真前缀的长度,使这个真前缀同时也是真后缀(也就是最长 border 的长度)。

考虑使用递推,通过已知的 f a i l 1 , f a i l 2 , … , f a i l i − 1 fail_1,fail_2,\dots,fail_{i-1} fail1,fail2,,faili1 推出 f a i l i fail_i faili

由定义可知 T ( 1 , f a i l i ) = T ( i − f a i l i + 1 , i ) T(1,fail_i)=T(i - fail_i+1,i) T(1,faili)=T(ifaili+1,i)。所以, T ( 1 , f a i l i − 1 ) = T ( i − f a i l i + 1 , i − 1 ) T(1,fail_i-1)=T(i-fail_i+1,i-1) T(1,faili1)=T(ifaili+1,i1) 必然成立,也就是说 T ( 1 , f a i l i − 1 ) T(1,fail_i-1) T(1,faili1) 一定是 T ( 1 , i − 1 ) T(1,i-1) T(1,i1) 的 border。

显然,如果 T ( f a i l i − 1 + 1 ) = T ( i ) T(fail_{i-1}+1)=T(i) T(faili1+1)=T(i),即如下图,则 f a i l i = f a i l i − 1 + 1 fail_i=fail_{i-1}+1 faili=faili1+1

(我是图)

否则, f a i l i < f a i l i − 1 fail_i<fail_{i-1} faili<faili1。由于 T ( 1 , f a i l i − 1 ) T(1,fail_i - 1) T(1,faili1) 一定是 T ( 1 , i − 1 ) T(1,i-1) T(1,i1) 的 border,即 T ( 1 , f a i l i − 1 ) = T ( i − f a i l i + 1 , i − 1 ) = T ( f a i l i − 1 − f a i l i + 2 , f a i l i − 1 ) T(1,fail_i-1)=T(i-fail_i+1,i - 1)=T(fail_{i-1}-fail_i+2,fail_{i-1}) T(1,faili1)=T(ifaili+1,i1)=T(faili1faili+2,faili1),如下图。

(我是图)

所以,说了那么一大堆没用的东西就是说 T ( 1 , f a i l i ) T(1,fail_i) T(1,faili) 一定是 T ( 1 , f a i l i − 1 ) T(1,fail_{i-1}) T(1,faili1) 的 border,下一个最后的可能推出来 f a i l i fail_i faili 的位置就是 f a i l f a i l i − 1 fail_{fail_{i-1}} failfaili1。以此类推,不停地跳 f a i l x fail_x failx,比较 T ( x + 1 ) T(x+1) T(x+1) T ( i ) T(i) T(i) 就可以求出 f a i l i fail_i faili 了。

算法流程

就像上面说的,先用递推求出 f a i l fail fail

对于每个 T ( i ) T(i) T(i) j = f a i l i − 1 j = fail_{i-1} j=faili1,用 T ( j + 1 ) T(j+1) T(j+1) 匹配,匹配不上就不停跳 f a i l j fail_j failj,直到到头或者匹配上。

再匹配主串和文本串:

两个指针 i i i j j j 分别指向现在正在匹配的字符。

i i i 不断右移匹配, j j j 匹配上了就右移,否则就往前不停跳 f a i l j fail_j failj,直到跳到头或者配上。

代码

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;

char a[1000010],b[1000010];
int kmp[1000010];
int j;

int main()
{
	scanf("%s",a + 1);
	scanf("%s",b + 1);
	int lena = strlen(a + 1),lenb = strlen(b + 1);
	for (int i = 2;i <= lenb;i ++)
	{
		while (j && b[j + 1] != b[i])
			j = kmp[j];
		if (b[j + 1] == b[i]) j ++;
		kmp[i] = j;
	}
	j = 0;
	for (int i = 1;i <= lena;i ++)
	{
		while (j && b[j + 1] != a[i])
			j = kmp[j];
		if (b[j + 1] == a[i]) j ++;
		if (j == lenb)
		{
			printf("%d\n",i - lenb + 1);
			j = kmp[j];
		}
	}
	for (int i = 1;i <= lenb;i ++) printf("%d ",kmp[i]);
}

其他

可以发现预处理 f a i l fail fail 的过程和匹配的过程很像,可以自己想一想为什么。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值