【算法笔记】KMP算法自认为比较详细的介绍。

前言

(前言全是废话)
纪念一下第一个正儿八经写的博客。
前不久(其实是上个月但是我太墨迹了嘎嘎嘎)学会了KMP算法的代码实现,这个算法的next数组那部分的代码着实让我蒙蔽了一晚上,痛苦了一晚上之后终于把代码搞明白了。说明一下KMP算法的思路本身不算难理解,但是那个代码中的next数组着实有点让人难受,不过好在理解了之后就会发现这种写法非常简洁。作为一只草履虫智商的算法er我觉得我的理解方式应该比较简单。换言之,我能懂,大家一定行。话不多说进入算法介绍。
ps:这篇文章适合木有基础的小伙伴,但是如果您对KMP算法已经有了一定的了解。可以直接跳到第三节。因为前面做了很多铺垫,或者直接看这位大佬的文章。
https://www.acwing.com/solution/content/129372/

一:为什么要使用KMP?

1.1 问题背景——什么是字符串匹配

给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。模式串 P在字符串 S中多次作为子串出现。求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
比如:
P:aba
S:ababa
输出:0,2
这里输出为0和2的含义表示为:字符串P在字符串S的第0个位置和第2个位置都出现了。

1.2 暴力算法(朴素算法)

解决上述问题并不难,一些小伙伴肯定能想到双重for循环就能解决这个问题。话不多说上代码

#include<iostream>
using namespace std;
const int N = 100010;
char p[N];
char s[N];
int  n;
int m;

int main(){
	
	cin>>n>>p>>m>>s;

for(int i = 0;i<m;++i){
		int k = i;
	for(int j = 0;j<=n;++j){
		if(j==n){
			cout<<k-n<<" ";
		}
		if(p[j]==s[k]){
			++k;
			continue;
		}else{
			break;
		}
	}
}
	return 0;
} 

分析时间复杂度,显然这是o(n^2)的。再字符串比较长的时候,一定会超时。

二 算法基本思路

2.1 next数组初体验

我们思考一下,我们的字符串匹配的过程是否能够被优化呢?以下面这个图为例。
在这里插入图片描述

当i和j发生失配的时候,在朴素算法中i需要回到index1,j需要回到index0,肉眼观察可以发现,这是大可不必的。如果我们能够让j直接回到j’的位置。岂不是更完美?所以我们现在就是要想办法找到这样一个下标的对应关系。让这个匹配过程在下标i发生失配的时候,i移动到j的位置就可以继续进行匹配。next数组的概念就这样诞生了。我们先这样假设,next[i]=j表示为,如果在下标i发生失配,那么就将当前的索引移动到j的位置。这里我们肉眼找到了一个next[6]的值。

根据我们的想法,我们让这个字符串数组下标从1开始。思考一下next[6]有什么特点。
在这里插入图片描述

我们知道,当在index ==j的位置失配的时候,那么j之前的所有元素应该都是成功匹配了的。我们要让j移动到j‘的位置,前提一定是要保证,j’之前的元素,(假设j’之前的元素长度为n)一定和(j-n~j-1)之间的元素完全匹配。以此类推,对于任何一个元素求其next的时候,都应该满足这个结果。这就引入了——字符串前后缀匹配的概念。

2.2 字符串前后缀匹配

在这里插入图片描述
前缀:字符串中包括第一个字符且不包括最后一个字符的字符串
后缀:字符串中包括最后一个字符且不包括第一个字符的字符串
最长匹配前后缀看上图就可以知道,是要同时满足这俩个条件的最长的字符串。
我们以上面这个几个字符串为例,红线就是这个字符串中最后一个字符的最长匹配前缀,蓝线就是最长匹配后缀。

我们把字符串中,每个字符对应的最长匹配前缀的最后一个字符的indx列出来。如下:
在这里插入图片描述

现在我们再回看next数组,next[6]=4,刚好是1-5组成的字符串中最长匹配前缀的下一个indx
我们假设find(x)表示以x为结尾的字符串的最长匹配前缀的下标,由上述推导可知。
next[6] = find(5)+1;
我们根据上述公式,把next数组的每一位算出来,得到的结果如下。
在这里插入图片描述
于是乎发现,这不就是刚才的数组中对应元素右移一位然后再加上1?
再来回顾一下这个公式:next[i]=find(i-1)+1; 似乎就明白了为什么是这样了!!!
(注意,这里的next[1]和考研辅导书上的写法是不一样的,如果是考试next[1]一定等于0,但是代码写法是灵活的,看你代码最终怎么写。之后我们用的不是这个next数组,所以这里就先这么写了,考研的小伙伴们一定要注意,左移一位后最左边那个位置应该写成-1,然后再+1就变成了0)

有了这些铺垫之后,我们就可以看看KMP算法的代码了!!

三 KMP核心代码详解

3.1 代码展示

以下代码的功能描述如下:(题源来自ACWwing)
输入格式
第一行输入整数 N表示字符串 P的长度。
第二行输入字符串 P第三行输入整数 M表示字符串 S的长度。
第四行输入字符串 S
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。

#include<iostream>
using namespace std;
int n;
int m;
const int N = 100010;
const int M = 1000010;
char p[N];
char s[M];
int ne[N];
int main(){
	cin>>n>>p+1>>m>>s+1;
	int j = 0;
	//求next数组的过程
	for(int i = 2;i<=n;++i){
		while(j&&p[i]!=p[j+1])j=ne[j];
		if(p[i]==p[j+1])j++;
		ne[i]=j;
	}
	j=0;
	//利用next数组进行字符串匹配
	for(int i = 1;i<=m;++i){
		while(j&&s[i]!=p[j+1])j=ne[j];
		if(s[i]==p[j+1])j++;
		if(j>=n){
			cout<<i-n<<" ";
			j = ne[j];
		}
	}
	return 0;
} 

我们有了上述铺垫,再来看这段代码的时候,还是感觉啥也不是,啥也不懂。这思路都懂了,代码写的是个啥?下面咱们一点一点的结合代码来剖析。

3.2 next数组深入分析

我们以ababaab这个串为例,它的next数组长啥样呢?
再次蒙蔽,这根本不是find(x)+1而是最原始的,最长匹配前缀的最后一个下标。喝杯茶冷静一下,因为算法本身就是灵活的,如何定义完全看你自己如何去写这段代码。带着一头智慧再来阅读这段代码。
在这里插入图片描述
我们先来看一下next求解的这段代码。

// 依次求解next数组的每一位。
    j=0;
	for(int i = 2;i<=n;++i){
	// 如果j等于0了,那么就不能进入循环,否则会陷入死循环。
	// 这里的p[i]不等于p[j+1]j就转移下标。
		while(j&&p[i]!=p[j+1])j=ne[j];
		// 如果它俩相等,那么j向后移动一个位置。然后next[i]就等于j
		if(p[i]==p[j+1])j++;
		ne[i]=j;
	}

我们可以发现,在上面的这段代码中,我们每次都是拿j+1的位置和i的位置的元素进行比较。这就解释了我们的第一个疑惑,人家的下标相对于我们的想法,左移了一个位置。这我们就理解了next数组为什么用的是find(X)这个问题了。但是对于这段代码还是云里雾里。下面我们再看一张图。
在这里插入图片描述

我们假设在第九个元素的位置失配,算到next[9]的时候,next[8]显然已经是已知的了。我们假设next[8]等于4,那么根据next数组的定义,红线和蓝线的部分是完全匹配的。我们将这部分对齐,可知,我们接下来要对比的就是next[9]和next[5]的位置,如果她们相等,显然1~5的位置和 4-9 的位置是能够完全匹配的。对于indx = 9的元素而言,最长匹配前缀的最后一个字符就是5.如果不能匹配呢?我们再假设j就等于next[4],假设next[4]等于2,我们再来看一张图
在这里插入图片描述

因为next[4]等于2,所以9就和3进行比较。后续工作就是重复上述过程了。现在再回过头看求解next数组的那段代码,应该就清晰明了了!!!!

四 完结撒花

当初看这段代码的时候非常蓝受,但是现在回看已经觉得并不是很难了,中间也经历了图论和DP的吊打。因为考完研之后代码能力变得奇差无比,我把这段回炉重造的日子成为:考后康复期。
下面放一下关于这部分我觉得讲解的非常不错的连接:
blibli中的某个UP主的文章
Acwing的某位大佬写的题解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
个人觉得是我见过的最简单易懂的算法入门书籍。 以前搜刮过几本算法竞赛书,但是难度终归太大【好吧,其实是自己太懒了】。 略翻过教材,大多数水校的教材,大家懂的。好一点的也是那本国内的经典,不是说它写的不好,只是没有这一本好。 本书Java实现,配有大量的图解,没有一句难懂的话,而且全都是模块化实现。 讲的都是实用算法,没有那些高大上听着名字就让人感到很害怕的东西,个人觉得比CLRS实用性要强,更加适合入门的学习。 大一,推荐这本书入门 【有C语言基础即可,自己去搜索下如何用Java写出Hello World就没有问题】 大二,推荐这本书从头到尾好好读一遍,做下上千道的课后习题 【后面的有点小难度,但是难度不大值得一做,听起来很多的样子,用心去做,相信很快就可以做完的】。 大三,推荐这本书,重新温习已知算法,为找工作,考研做准备。 【可以试着自己在纸上全部实现一遍】 大四,依旧推荐这本书,没事重温经典,当手册来查也不错。 Sedgwick 红黑树的发现者,Donald E.Knuth 的得意门生,对各种算法都有比较深入的研究,他的书,我想不会太差。 也许对于数据结构的学习涉及的内容比较少,没有动态规划,图论也只是讲了很基础的东西,字符串中KMP弄的过于复杂(对比于acm)。但是瑕不掩瑜,对于绝大部分内容真的讲的超级清楚,完美的图解,就像单步调试一样,也许是一本不需要智商就能看懂的算法书(习题应该略有难度,还没有做,打算上Princeton的公开课时同步跟进)。至少这是一本让我这个算法渣渣看了爱不释手,怦然心动的书。 完美学习资源: 官方主页:http://algs4.cs.princeton.edu/home/ Coursera公开课:https://www.coursera.org/course/algs4partI (听说已经开课两期了,最近即将开课的时间是2014/09/05号那期,希望有兴趣的同学一起来学习)。 MOOC平台(笔记、讨论等): http://mooc.guokr.com/course/404/Algorithms--Part-I/ http://mooc.guokr.com/course/403/Algorithms--Part-II/ 不得不吐槽,他的lecture比他的书好,他本人讲的课更是一绝。 互补课程: 斯福坦的Algorithms: Design and Analysis, http://mooc.guokr.com/course/157/Algorithms--Design-and-Analysis--Part-1/ 快毕业了才接触到豆瓣和MOOC,看到很多经典的书籍都是推荐大学一二年级的学生看,每每想到自己却连书皮都没有摸过,就深感惭愧。 我们都老的太快,却聪明得太迟。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值