【算法笔记】KMP算法自认为比较详细的介绍。

前言

(前言全是废话)
纪念一下第一个正儿八经写的博客。
前不久(其实是上个月但是我太墨迹了嘎嘎嘎)学会了KMP算法的代码实现,这个算法的next数组那部分的代码着实让我蒙蔽了一晚上,痛苦了一晚上之后终于把代码搞明白了。说明一下KMP算法的思路本身不算难理解,但是那个代码中的next数组着实有点让人难受,不过好在理解了之后就会发现这种写法非常简洁。作为一只草履虫智商的算法er我觉得我的理解方式应该比较简单。换言之,我能懂,大家一定行。话不多说进入算法介绍。
ps:这篇文章适合木有基础的小伙伴,但是如果您对KMP算法已经有了一定的了解。可以直接跳到第三节。因为前面做了很多铺垫,或者直接看这位大佬的文章。
https://www.acwing.com/solution/content/129372/

一:为什么要使用KMP?

1.1 问题背景——什么是字符串匹配

给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。模式串 P在字符串 S中多次作为子串出现。求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
比如:
P:aba
S:ababa
输出:0,2
这里输出为0和2的含义表示为:字符串P在字符串S的第0个位置和第2个位置都出现了。

1.2 暴力算法(朴素算法)

解决上述问题并不难,一些小伙伴肯定能想到双重for循环就能解决这个问题。话不多说上代码

#include<iostream>
using namespace std;
const int N = 100010;
char p[N];
char s[N];
int  n;
int m;

int main(){
	
	cin>>n>>p>>m>>s;

for(int i = 0;i<m;++i){
		int k = i;
	for(int j = 0;j<=n;++j){
		if(j==n){
			cout<<k-n<<" ";
		}
		if(p[j]==s[k]){
			++k;
			continue;
		}else{
			break;
		}
	}
}
	return 0;
} 

分析时间复杂度,显然这是o(n^2)的。再字符串比较长的时候,一定会超时。

二 算法基本思路

2.1 next数组初体验

我们思考一下,我们的字符串匹配的过程是否能够被优化呢?以下面这个图为例。
在这里插入图片描述

当i和j发生失配的时候,在朴素算法中i需要回到index1,j需要回到index0,肉眼观察可以发现,这是大可不必的。如果我们能够让j直接回到j’的位置。岂不是更完美?所以我们现在就是要想办法找到这样一个下标的对应关系。让这个匹配过程在下标i发生失配的时候,i移动到j的位置就可以继续进行匹配。next数组的概念就这样诞生了。我们先这样假设,next[i]=j表示为,如果在下标i发生失配,那么就将当前的索引移动到j的位置。这里我们肉眼找到了一个next[6]的值。

根据我们的想法,我们让这个字符串数组下标从1开始。思考一下next[6]有什么特点。
在这里插入图片描述

我们知道,当在index ==j的位置失配的时候,那么j之前的所有元素应该都是成功匹配了的。我们要让j移动到j‘的位置,前提一定是要保证,j’之前的元素,(假设j’之前的元素长度为n)一定和(j-n~j-1)之间的元素完全匹配。以此类推,对于任何一个元素求其next的时候,都应该满足这个结果。这就引入了——字符串前后缀匹配的概念。

2.2 字符串前后缀匹配

在这里插入图片描述
前缀:字符串中包括第一个字符且不包括最后一个字符的字符串
后缀:字符串中包括最后一个字符且不包括第一个字符的字符串
最长匹配前后缀看上图就可以知道,是要同时满足这俩个条件的最长的字符串。
我们以上面这个几个字符串为例,红线就是这个字符串中最后一个字符的最长匹配前缀,蓝线就是最长匹配后缀。

我们把字符串中,每个字符对应的最长匹配前缀的最后一个字符的indx列出来。如下:
在这里插入图片描述

现在我们再回看next数组,next[6]=4,刚好是1-5组成的字符串中最长匹配前缀的下一个indx
我们假设find(x)表示以x为结尾的字符串的最长匹配前缀的下标,由上述推导可知。
next[6] = find(5)+1;
我们根据上述公式,把next数组的每一位算出来,得到的结果如下。
在这里插入图片描述
于是乎发现,这不就是刚才的数组中对应元素右移一位然后再加上1?
再来回顾一下这个公式:next[i]=find(i-1)+1; 似乎就明白了为什么是这样了!!!
(注意,这里的next[1]和考研辅导书上的写法是不一样的,如果是考试next[1]一定等于0,但是代码写法是灵活的,看你代码最终怎么写。之后我们用的不是这个next数组,所以这里就先这么写了,考研的小伙伴们一定要注意,左移一位后最左边那个位置应该写成-1,然后再+1就变成了0)

有了这些铺垫之后,我们就可以看看KMP算法的代码了!!

三 KMP核心代码详解

3.1 代码展示

以下代码的功能描述如下:(题源来自ACWwing)
输入格式
第一行输入整数 N表示字符串 P的长度。
第二行输入字符串 P第三行输入整数 M表示字符串 S的长度。
第四行输入字符串 S
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。

#include<iostream>
using namespace std;
int n;
int m;
const int N = 100010;
const int M = 1000010;
char p[N];
char s[M];
int ne[N];
int main(){
	cin>>n>>p+1>>m>>s+1;
	int j = 0;
	//求next数组的过程
	for(int i = 2;i<=n;++i){
		while(j&&p[i]!=p[j+1])j=ne[j];
		if(p[i]==p[j+1])j++;
		ne[i]=j;
	}
	j=0;
	//利用next数组进行字符串匹配
	for(int i = 1;i<=m;++i){
		while(j&&s[i]!=p[j+1])j=ne[j];
		if(s[i]==p[j+1])j++;
		if(j>=n){
			cout<<i-n<<" ";
			j = ne[j];
		}
	}
	return 0;
} 

我们有了上述铺垫,再来看这段代码的时候,还是感觉啥也不是,啥也不懂。这思路都懂了,代码写的是个啥?下面咱们一点一点的结合代码来剖析。

3.2 next数组深入分析

我们以ababaab这个串为例,它的next数组长啥样呢?
再次蒙蔽,这根本不是find(x)+1而是最原始的,最长匹配前缀的最后一个下标。喝杯茶冷静一下,因为算法本身就是灵活的,如何定义完全看你自己如何去写这段代码。带着一头智慧再来阅读这段代码。
在这里插入图片描述
我们先来看一下next求解的这段代码。

// 依次求解next数组的每一位。
    j=0;
	for(int i = 2;i<=n;++i){
	// 如果j等于0了,那么就不能进入循环,否则会陷入死循环。
	// 这里的p[i]不等于p[j+1]j就转移下标。
		while(j&&p[i]!=p[j+1])j=ne[j];
		// 如果它俩相等,那么j向后移动一个位置。然后next[i]就等于j
		if(p[i]==p[j+1])j++;
		ne[i]=j;
	}

我们可以发现,在上面的这段代码中,我们每次都是拿j+1的位置和i的位置的元素进行比较。这就解释了我们的第一个疑惑,人家的下标相对于我们的想法,左移了一个位置。这我们就理解了next数组为什么用的是find(X)这个问题了。但是对于这段代码还是云里雾里。下面我们再看一张图。
在这里插入图片描述

我们假设在第九个元素的位置失配,算到next[9]的时候,next[8]显然已经是已知的了。我们假设next[8]等于4,那么根据next数组的定义,红线和蓝线的部分是完全匹配的。我们将这部分对齐,可知,我们接下来要对比的就是next[9]和next[5]的位置,如果她们相等,显然1~5的位置和 4-9 的位置是能够完全匹配的。对于indx = 9的元素而言,最长匹配前缀的最后一个字符就是5.如果不能匹配呢?我们再假设j就等于next[4],假设next[4]等于2,我们再来看一张图
在这里插入图片描述

因为next[4]等于2,所以9就和3进行比较。后续工作就是重复上述过程了。现在再回过头看求解next数组的那段代码,应该就清晰明了了!!!!

四 完结撒花

当初看这段代码的时候非常蓝受,但是现在回看已经觉得并不是很难了,中间也经历了图论和DP的吊打。因为考完研之后代码能力变得奇差无比,我把这段回炉重造的日子成为:考后康复期。
下面放一下关于这部分我觉得讲解的非常不错的连接:
blibli中的某个UP主的文章
Acwing的某位大佬写的题解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值