字符串学习笔记1——前缀数组与KMP算法

最新推荐文章于 2024-05-05 19:51:58 发布

懵哥很懵

最新推荐文章于 2024-05-05 19:51:58 发布

阅读量805

点赞数 4

分类专栏：学习笔记文章标签：字符串

本文链接：https://blog.csdn.net/m0_52048145/article/details/113242237

版权

学习笔记专栏收录该内容

33 篇文章 1 订阅

订阅专栏

（之前学KMP的时候就一直没学会，其间找了很多资料也没学会，直到现在过去两年多了才真正学会，因而写篇文章记录一下）

在涉及KMP算法之前，先来看一个东西——前缀数组。

什么是前缀数组？就是一个和字符串等长的数组，里边记录了 $s [0, 1, \dots \dots, i]$ 中最大真前缀等于真后缀的长度，用 $\pi(i)$ 表示。用严格的数学公式定义，就是：

$\pi(i)=\displaystyle \max_{0 \leq k \leq i} \{ s[0,1,……,k-1]=s[i-(k-1),……,i] \}$

真前缀、真后缀表示除了自己以外的其他前后缀，那么长度必然小于原长。

那这又是个啥呢？举个例子：

现在有这么个字符串： $\tt ababaca$ 。

通常规定 $\pi(0)=0$ 。显然它都没有真前后缀。

那么对于 $\pi(1)$ ，表示字串 $\tt ab$ 。显然它没有这样的真前后缀：因为 $\tt a \neq b$ ，因而 $\pi(1)=0$

对于 $\pi(2)$ ，它对应着字串 $\tt aba$ 。我们可以找到这样相等的前后缀： $\tt \underline ab \underline a$ 。显然没有更长的了，因为 $\tt ab \neq ba$ 。

$\pi(3)=2$ ，因为 $\tt \underline {ab}$ $\tt\underline {ab}$ 。

依次类推， $\pi(4)=3$ ，因为 $\tt (aba)ab=ab(aba)$ 。 $\pi(5)=0,\pi(6)=1$ 。

那么问题来了——怎么求这样的一个东西。

首先一个朴素思想：首先枚举字符串长度，然后再枚举子串长度，最后逐字符判定前后缀是否相等。

但是看看这循环次数：

枚举字符串长度 ${ O(n)\{$ 枚举子串长度 ${ O(n)\{$ 逐字符判定前后缀是否相等 $O(n)\}\}\}$ 。 $O(n^3)$ 显然不可承受。毕竟我们还要那这它去做字符串匹配，这倒好，做开头工作都比正式工作的 $O (n m)$ 还要慢了。

那这怎么办呢？

其实第一个优化很容易想到：字串长度真的每次都需要从原长-1开始枚举？

给定下面一个字符串：

$s_1s_2s_3……s_{i-3}s_{i-2}s_{i-1}s_i$

现在新来了一个 $s_{i+1}$ 。如果我知道 $\pi(i)=0$ ，我有没有必要还枚举它的长度？显然是没必要的。因为如果 $\pi(i)=0$ ，那证明这里边根本就没有能匹配的上的前后缀。如果 $\pi(i+1)\geq 2$ ，那么就势必证明前面已经有能匹配的上的，因为对于 $s_{i+1}$ 匹配的是前面的 $s_k$ ，对于 $s_k$ 及其前面的字符串显然有 $s_i$ 及其前面的字符串进行匹配，那也不至于说 $\pi(i)=0$ 。

举个例子： $\tt abaca$ 。对于 $\tt abac$ ，显然 $\pi(4)=0$ ，此时来了个 $\tt a$ ， $\pi(5)=1$ ，不会大于等于2，因为一旦大于等于2，那么此时 $\tt c$ 就要找一个前面的字符去匹配了，但是这里并没有，因而不能。所以， $\pi(i+1) \leq \pi(i)+1$ 。

此处还有另一种证明：考虑最优情况， $s_{i+1}=s_{\pi(i)+1}$ ， $\pi(i+1)=\pi(i)+1$ 。其他情况只会比这个更糟糕。因而这是上界。

因此，我们在第二重循环枚举子串长度的时候，可以只从长度 $\pi(i)+1$ 开始。这样可以降低一个 $O (n)$ 的复杂度，也就是 $O(n^2)$ 。

但是这还是不可接受的。再怎么办？

我们枚举长度的时候真的需要每一个长度都去考虑吗？ 我们可否利用我们已经做出来的前缀数组，进行这一轮的计算呢？

首先我们考虑一个简单的情况：对于一个字符串

$s_1s_2s_3……s_{i-3}s_{i-2}s_{i-1}s_i$

如果存在一个 $j$ ，使得 $s [0, 1, \dots \dots, j - 1] = s [i - (j - 1), \dots \dots, i]$ ，同时 $s [j] = s [i + 1]$ ，那这时是不是匹配成功了？我们把问题拆解成：前 $j - 1$ 个字符和后面 $j - 1$ 个字符匹配，最后第 $j$ 个字符和新来的字符匹配，如果都成功就是匹配成功了。

举个例子： $\tt ababa$ ，原来是 $\tt abab$ ，这时来了个 $\tt a$ ，我们发现取 $j = 3$ ，这时 $\tt \underline {ab}$ $\tt\underline {ab}$ ，同时第三位的 $\tt a$ 和最后一位的 $\tt a$ 相同，这时匹配成功了。

那么，最长的 $j$ 就是我们想要的。显然这种 $j$ 不止一个，例如在上面的例子中 $j$ 还可以等于1。那这又和我们之前做出来的前缀数组有什么关系呢？

由于后面那个单字符匹配仅需 $O (1)$ 的时间，因此我们考虑前面这个问题：如何找到一个第二长的前后缀匹配长度？

考虑现在长度为 $i$ 的字符串 $s_i$ ，记 $\pi(i)=k$ 。我们要找到一个最长的 $j$ 满足上一段的条件。

$\overbrace{s_1s_2s_3……s_k}^{\pi(i)=k}s_{k+1}……s_{i-k}\overbrace{s_{i-k+1}……s_i}^{\pi(i)=k}$

显然在 $\pi(i)$ 的区间里，前后缀是相同的，并且最长的。我们要找的 $j$ ，一定也是在 $\pi(i)$ 这个匹配范围内的。

如果存在一个 $j$ 满足条件，那么显然， $s [1, 2, \dots \dots, j] = s [i - j + 1, \dots \dots, i]$ 。但是，我们还有一个大条件：在 $\pi(i)$ 的区间里，前后缀是相同的。那么，后面这一段我们就一定可以在前 $\pi(i)$ 的区间中找到一模一样的。即，

$s [1, 2, \dots \dots, j] = s [k - j + 1, \dots \dots, k]$

把目光放在前 $\pi(i)$ 的字符串中。那这，不就是这个小字符串的最长前后缀匹配过程？那不就有 $j=\pi(i)$ 了。

举个例子：

$\tt ababadefababa$

我们有 $\tt \underline {ababa}def \underline {ababa}$ 。注意到 $\tt \underline{aba}badefab\underline{aba}$ 。由上面的分析，我们就一定可以在前五个字符中找到自匹配的。的确存在： $\tt ababa$ 中确实存在公共前后缀 $\tt aba$ 。

因此，我们只需要每次将 $j$ 移动到 $\pi(i)$ 的位置即可，不必逐一枚举。

而且，这样处理的复杂度仅为 $O (n)$ ，代码也简单的离谱。

int j=0;//初始化为0。
for(int i=1;i<=len;i++)
{
	while(j && b[j+1]!=b[i])//如果当前的j不满足和新来的匹配，那么它就不是一个合格的j，往前跳
		j=next[j];//跳的公式
	if(b[j+1]==b[i])//找到了合法的非零j
		j++;//匹配成功，j后移一位
	next[i]=j;
}

注意：上述代码中j并未清零重新赋值，是因为这样每轮变化后的j本身就等于前一位的next[i]（倒数第二行），因而不用重新赋值。

正式引出KMP！

正式的字符串匹配其实就很简单了！

对于待匹配的字符串 $\tt S$ （也称模式串）和文本串 $\tt T$ ，我们只要用一个没有都出现过的字符例如$插在中间：

$\tt S \$ T$

然后跑前缀数组就行了！

这为什么对？

因为显然由于这个不会出现的$，这个前缀数组不会超过 $\tt S$ 的长，那么匹配范围就不会越过 $\tt S$ 和 $\tt T$ 。这时，当匹配过程进入 $\tt T$ 区间时，这个数组内的值就直接反应了它和 $\tt S$ 的匹配情况。当这个数等于 $\tt S$ 的长的时候，就证明前后缀相同，又由于后缀一定在 $\tt T$ ，而前缀一定在 $\tt S$ 区间，则 $\tt T$ 中出现了 $\tt S$ 的全文。

代码基本上文一样，不再重复。

当然还有一种：直接在 $\tt T$ 上跑匹配过程，不再更新它这一部分的前缀数组。这一种更流行，代码附上。

j=0;
    for(int i=1;i<=lena;i++)
    {
        while(j && b[j+1]!=a[i])//匹配过程，只不过现在是跨字符串的匹配
            j=next[j];
        if(b[j+1]==a[i])//找到了非零的j
            j++;
        if(j==lenb)//匹配长度为模式串全长，则T中出现S原文
        {
            printf("%d\n",i-lenb+1);//打印位置
            j=next[j];//移动到下一位准备下一次的匹配过程
        }
    }

懵哥很懵

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
字符串学习笔记1——前缀数组与KMP算法

（之前学KMP的时候就一直没学会，其间找了很多资料也没学会，直到现在过去两年多了才真正学会，因而写篇文章记录一下）在涉及KMP算法之前，先来看一个东西——前缀数组。什么是前缀数组？就是一个和字符串等长的数组，里边记录了s[0,1,……,i]s[0,1,……,i]s[0,1,……,i]中最大真前缀等于真后缀的长度，用π(i)\pi(i)π(i)表示。用严格的数学公式定义，就是：π(i)=max⁡0≤k≤i{s[0,1,……,k−1]=s[i−(k−1),……,i]}\pi(i)=\displaystyl
复制链接

扫一扫

专栏目录