【算法笔记】KMP算法自认为比较详细的介绍。

阿拉拉丫

于 2023-02-11 22:22:52 发布

阅读量284

点赞数

文章标签：算法 c++ 图论

本文链接：https://blog.csdn.net/qq_46289793/article/details/128978777

版权

前言

（前言全是废话）
纪念一下第一个正儿八经写的博客。
前不久（其实是上个月但是我太墨迹了嘎嘎嘎）学会了KMP算法的代码实现，这个算法的next数组那部分的代码着实让我蒙蔽了一晚上，痛苦了一晚上之后终于把代码搞明白了。说明一下KMP算法的思路本身不算难理解，但是那个代码中的next数组着实有点让人难受，不过好在理解了之后就会发现这种写法非常简洁。作为一只草履虫智商的算法er我觉得我的理解方式应该比较简单。换言之，我能懂，大家一定行。话不多说进入算法介绍。
ps：这篇文章适合木有基础的小伙伴，但是如果您对KMP算法已经有了一定的了解。可以直接跳到第三节。因为前面做了很多铺垫，或者直接看这位大佬的文章。
https://www.acwing.com/solution/content/129372/

一：为什么要使用KMP？

1.1 问题背景——什么是字符串匹配

给定一个字符串 S，以及一个模式串 P，所有字符串中只包含大小写英文字母以及阿拉伯数字。模式串 P在字符串 S中多次作为子串出现。求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
比如：
P：aba
S：ababa
输出：0，2
这里输出为0和2的含义表示为：字符串P在字符串S的第0个位置和第2个位置都出现了。

1.2 暴力算法（朴素算法）

解决上述问题并不难，一些小伙伴肯定能想到双重for循环就能解决这个问题。话不多说上代码

#include<iostream>
using namespace std;
const int N = 100010;
char p[N];
char s[N];
int  n;
int m;

int main(){
	
	cin>>n>>p>>m>>s;

for(int i = 0;i<m;++i){
		int k = i;
	for(int j = 0;j<=n;++j){
		if(j==n){
			cout<<k-n<<" ";
		}
		if(p[j]==s[k]){
			++k;
			continue;
		}else{
			break;
		}
	}
}
	return 0;
}

分析时间复杂度，显然这是o(n^2)的。再字符串比较长的时候，一定会超时。

二算法基本思路

2.1 next数组初体验

我们思考一下，我们的字符串匹配的过程是否能够被优化呢？以下面这个图为例。
在这里插入图片描述

当i和j发生失配的时候，在朴素算法中i需要回到index1,j需要回到index0，肉眼观察可以发现，这是大可不必的。如果我们能够让j直接回到j’的位置。岂不是更完美？所以我们现在就是要想办法找到这样一个下标的对应关系。让这个匹配过程在下标i发生失配的时候，i移动到j的位置就可以继续进行匹配。next数组的概念就这样诞生了。我们先这样假设，next[i]=j表示为，如果在下标i发生失配，那么就将当前的索引移动到j的位置。这里我们肉眼找到了一个next[6]的值。

根据我们的想法，我们让这个字符串数组下标从1开始。思考一下next[6]有什么特点。
在这里插入图片描述

我们知道，当在index ==j的位置失配的时候，那么j之前的所有元素应该都是成功匹配了的。我们要让j移动到j‘的位置，前提一定是要保证，j’之前的元素，（假设j’之前的元素长度为n）一定和（j-n~j-1）之间的元素完全匹配。以此类推，对于任何一个元素求其next的时候，都应该满足这个结果。这就引入了——字符串前后缀匹配的概念。

2.2 字符串前后缀匹配

在这里插入图片描述
前缀：字符串中包括第一个字符且不包括最后一个字符的字符串
后缀：字符串中包括最后一个字符且不包括第一个字符的字符串
最长匹配前后缀看上图就可以知道，是要同时满足这俩个条件的最长的字符串。
我们以上面这个几个字符串为例，红线就是这个字符串中最后一个字符的最长匹配前缀，蓝线就是最长匹配后缀。

我们把字符串中，每个字符对应的最长匹配前缀的最后一个字符的indx列出来。如下：
在这里插入图片描述

现在我们再回看next数组，next[6]=4，刚好是1-5组成的字符串中最长匹配前缀的下一个indx
我们假设find（x)表示以x为结尾的字符串的最长匹配前缀的下标，由上述推导可知。
next[6] = find(5)+1;
我们根据上述公式，把next数组的每一位算出来，得到的结果如下。
在这里插入图片描述
于是乎发现，这不就是刚才的数组中对应元素右移一位然后再加上1？
再来回顾一下这个公式：next[i]=find(i-1)+1; 似乎就明白了为什么是这样了！！！
（注意，这里的next[1]和考研辅导书上的写法是不一样的，如果是考试next[1]一定等于0，但是代码写法是灵活的，看你代码最终怎么写。之后我们用的不是这个next数组，所以这里就先这么写了，考研的小伙伴们一定要注意，左移一位后最左边那个位置应该写成-1，然后再+1就变成了0）

有了这些铺垫之后，我们就可以看看KMP算法的代码了！！

三 KMP核心代码详解

3.1 代码展示

以下代码的功能描述如下：（题源来自ACWwing）
输入格式
第一行输入整数 N表示字符串 P的长度。
第二行输入字符串 P第三行输入整数 M表示字符串 S的长度。
第四行输入字符串 S
输出格式
共一行，输出所有出现位置的起始下标（下标从 0 开始计数），整数之间用空格隔开。

#include<iostream>
using namespace std;
int n;
int m;
const int N = 100010;
const int M = 1000010;
char p[N];
char s[M];
int ne[N];
int main(){
	cin>>n>>p+1>>m>>s+1;
	int j = 0;
	//求next数组的过程
	for(int i = 2;i<=n;++i){
		while(j&&p[i]!=p[j+1])j=ne[j];
		if(p[i]==p[j+1])j++;
		ne[i]=j;
	}
	j=0;
	//利用next数组进行字符串匹配
	for(int i = 1;i<=m;++i){
		while(j&&s[i]!=p[j+1])j=ne[j];
		if(s[i]==p[j+1])j++;
		if(j>=n){
			cout<<i-n<<" ";
			j = ne[j];
		}
	}
	return 0;
}

我们有了上述铺垫，再来看这段代码的时候，还是感觉啥也不是，啥也不懂。这思路都懂了，代码写的是个啥？下面咱们一点一点的结合代码来剖析。

3.2 next数组深入分析

我们以ababaab这个串为例，它的next数组长啥样呢？
再次蒙蔽，这根本不是find(x)+1而是最原始的，最长匹配前缀的最后一个下标。喝杯茶冷静一下，因为算法本身就是灵活的，如何定义完全看你自己如何去写这段代码。带着一头智慧再来阅读这段代码。
在这里插入图片描述
我们先来看一下next求解的这段代码。

// 依次求解next数组的每一位。
    j=0;
	for(int i = 2;i<=n;++i){
	// 如果j等于0了，那么就不能进入循环，否则会陷入死循环。
	// 这里的p[i]不等于p[j+1]j就转移下标。
		while(j&&p[i]!=p[j+1])j=ne[j];
		// 如果它俩相等，那么j向后移动一个位置。然后next[i]就等于j
		if(p[i]==p[j+1])j++;
		ne[i]=j;
	}

我们可以发现，在上面的这段代码中，我们每次都是拿j+1的位置和i的位置的元素进行比较。这就解释了我们的第一个疑惑，人家的下标相对于我们的想法，左移了一个位置。这我们就理解了next数组为什么用的是find(X)这个问题了。但是对于这段代码还是云里雾里。下面我们再看一张图。
在这里插入图片描述

我们假设在第九个元素的位置失配，算到next[9]的时候，next[8]显然已经是已知的了。我们假设next[8]等于4，那么根据next数组的定义，红线和蓝线的部分是完全匹配的。我们将这部分对齐，可知，我们接下来要对比的就是next[9]和next[5]的位置，如果她们相等，显然1~5的位置和 4-9 的位置是能够完全匹配的。对于indx = 9的元素而言，最长匹配前缀的最后一个字符就是5.如果不能匹配呢？我们再假设j就等于next[4]，假设next[4]等于2，我们再来看一张图
在这里插入图片描述