哦~我亲爱的朋友啊,我们真是好久不见。(行,我不说废话)今天来总结的呢就是KMP,这个字符串领域的福音!!!!首先呢,就是关于字符串匹配。我们在各大竞赛呢,一般都会碰到字符串的题目。而有些字符串的题目他们更是十分大言不惭地说自己是签到题目,好家伙,这可就苦了我这样的新人小白了。
那作为新人小白,看见这种题第一反应是什么呢?那还用问嘛,肯定是一个一个对着找啊。emmmm,确实,暴力解决大多数问题。(今天从某个巨巨那里看到,这还可以称之为朴素的匹配模式,感觉比咱这粗言粗语不知道好听了多少。)那就举个例子吧。
就比如说上面这个字符串,然后我再给你一个字符串
然后我会询问,下面这个字符串是否在上面的字符串中出现。那么我们正常的暴力,也就是朴素的匹配模式是怎么样的呢?我们会用下面这个字符串和上面的字符串进行逐一对应。A-A,B-B.C-C,A-A就类似于这个样子,那如果我给的是CSDN呢?我们就要进行7次以后告诉你,并没有出现过。这样的话就会导致一个又一个地找,时间复杂度也会很高,面对那些简单的签到题目,不仅麻烦还超时。
当然,今天的KMP也可以用于解决这一类的问题(不是拿来写签到题的www)
先对KMP进行一个简单的介绍吧
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)
——摘自百度百科
所以就是说,KMP可以把时间复杂度从O(m*n)变成O(m+n)。乍一听,是不是没感觉提升了多少呢,那就相当于从67*89变成了67+89。这个改变不算小了吧。通过减少我们比对不必要的次数来减少时间,应该就是这个意思吧。
嗯...在这个之前,我们还要介绍一下next函数的作用。
next[i]=j的意思呢就是,在下标为i的数字之前的数字里面包括i有最大长度为j的相等前后缀。这个相等前后缀又是什么呢?
就拿上面那个字符串举例子吧。ABCABCA
他的前缀A,AB,ABC,ABCA,ABCAB,ABCABC
他的后缀A,CA,BCA,ABCA,CABCA,BCABCA
那么很明显,在不包括自身的情况下,最长的相等前后缀就是ABCA 。这个就是相等前后缀。
还以ABCABCA做例子。从1开始标号
next数组就是0 0 0 1 2 3 4
是不是大概有了点感觉呢?
那留个小空白给你思考一下吧。
也可以尝试一下写出这几个数组的next值
ABCABCA BCBCBCBC
ABCDBA ABCADBFABC
OKK你明白是什么意思就好,那么我们接着往下走。既然这样的话,next的函数实现应该怎么写呢?自己动手写一下再说。仔细想想他的定义,以及他是拿来做什么,next是如何得来的?
void GetNext()
{
int j=0,k=-1;
next[0]=-1;
while(j<len){
if(k==-1||t[j]==t[k]){
k++;
j++;
next[j]=k;
}else k=next[k];
}
}
嗯,next数组的由来呢,主要就是靠这个函数。这个函数可以手动模拟一下,印象更深刻,你会更加清楚,next数组是怎么来的。就是一个当前字符和最开始的字符比较的过程。
接下来呢就是KMP的板子啦,说是板子,但还是建议各位亲跟着题目理解理解嘛。
void KMP()
{
GetNext();
int i=0,j=0;
while(i<len1){
if(j==-1||t[i]==s[j]){
i++;
j++;
}else j=next[j];
if(j>=len2){
sum++;//对字串出现次数的计算
j=next[j];
}
}printf("%d\n",sum);//这个板子应用于比对字串在主串中一共出现过几次
}
最后的主函数呢,就不需要我来写了吧。固定函数不改变,主函跟着题目走。
/怎么办,我感觉我KMP还是没讲清楚没学明白....哇,那有问题的话就在评论区留言吧,还有劳各位路过的巨巨帮忙解答一下,还有上面next的答案也可以留在评论区里面。最后,哪里写的不对,还请巨巨们多多指正!!!!