KMP算法

最新推荐文章于 2022-11-29 15:50:51 发布

训练有素的咸鱼

最新推荐文章于 2022-11-29 15:50:51 发布

阅读量358

点赞数 1

分类专栏：其他

本文链接：https://blog.csdn.net/qq_40636117/article/details/89284501

版权

其他专栏收录该内容

2 篇文章 0 订阅

订阅专栏

问题：在信息检索中查找某段信息的位置

例如：在S=“ababaababcb”中查找字符串T=“ababc”的位置（S称为主串，T称为模板）

一、KMP的思想：

如果按照暴力算法来操作的话，要是某个字符T[j]和主串不匹配，就得从头再来了。要是T[j]前有两个字符串一毛一样（比如下图），还从头再来，不是血亏啊？

序号         0  1  2  3  4

S（主串）     a  b  a  b  a
             || || || || 
T（模板）     a  b  a  b  c

可以看出，T[4]前有两个字符串相等，即 T[0]T[1]=T[2]T[3]=ab

因为 T[4] != S[4],所以要重新开始匹配

如果从T[0]开始重新匹配的话，本来T[2]T[3]就已经和S[2]S[3]匹配上了，在T[0]T[1]=T[2]T[3]的前提下，

你还要再判断一遍S[2]S[3]和T[0]T[1]一不一样，很明显浪费了时间。

KMP算法的思想正是基于此：T[n]前那两个一模一样的的字符串分别称为真前，后缀。对于真前缀，直接免检了，从真前缀后面那个字符开始匹配

比如上面那个例子，下次重新开始匹配完全不必从T[0]开始，直接从真前缀T[0]T[1]的后一位：T[2]开始就行了啊。

对于T模板的每个字符T[j]，都有一个这样的值next[j]：当T[j]!=S[n]时，令j=next[j]（从T[next[j]]开始匹配）,缩短匹配时间。

求next数组：

模板T=“ababc”

1.next[0]:

当T[0]!=S[n]时，T[0]前面没有字符串，所以我们记next[0]=-1

个人观点：next[0]=0也行啊，毕竟第一个字符串都匹配不上，不应该从头（T[0]）开始吗？

可能这种情况有些不同，要用负数（比如-1）特别标记一下吧


2.next[1]

T[1]!=S[n]时，T[1]前面只有一个字符串T[0]。还是得老老实实地从头开始匹配过，所以next[1]=0


3.next[2]

T[2]!=S[n]时，T[2]前面的两个字符串T[0]!=T[1],没有真前后缀。还得从头来啊，所以next[2]=0


4.next[3]

T[3]!=S[n]时，T[3]前面有三个字符串，而且T[0]=T[2]!T[0]为真前缀，T[2]为真后缀。

对于T[0]自然是免检了，所以我们从T[1]开始匹配，所以next[3]=1


5.next[4]

T[4]!=S[n]时（好可惜啊）,T[4]前面有四个字符串，而且T[0]T[1]=T[2]T[3],同上，对于真前缀T[0]T[1]

我们是免检的，匹配时从T[2]开始就行了，所以next[4]=2


由此得出：next数组为{-1,0,0,1,2}

由next值的定义，用三重循环是很容易求出来的，但是时间复杂度O(m^3),费时费力。还有一种O(m)级别的算法，以后有时间再补充。

二、代码

#include<stdio.h>
#include<stdlib.h>
#include<string.h>

void getNext(char T[],int next[]){

	int i,j,len;
	next[0]=-1;

	for(j=1;T[j]!='\0';j++){
		for(len=j-1;len>=1;len--){
			for(i=0;i<len;i++)
				if(T[i]!=T[j-len+i]) break;
			if(i==len){
				next[j]=len;
				break;
			}
		}
		if(len<1)next[j]=0;
	}
}

int kmp(char s[],char t[]){
	int next[1000];
	getNext(t,next);

	int i=0,j=0;

	while(s[i]!='\0' && t[j]!='\0'){
		if(s[i]==t[j]){
			i++;j++;
		}else{
			j=next[j];
			if(j==-1){i++;j++;}
		}
	}
	if(t[j]=='\0') return (i-strlen(t)+1);
	else return 0;
}


int main(){
	char s[1000],t[1000];
	scanf("%s",&s);
	scanf("%s",&t);
	printf("%d\n",kmp(s,t));
	return 0;
}

训练有素的咸鱼

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法

问题：在信息检索中查找某段信息的位置例如：在S=“ababaababcb”中查找字符串T=“ababc”的位置（S称为主串，T称为模板）一、KMP的思想：如果按照暴力算法来操作的话，要是某个字符T[j]和主串不匹配，就得从头再来了。要是T[j]前有两个字符串一毛一样（比如下图），还从头再来，不是血亏啊？序号 0 1 2 3 4S（主串） ...
复制链接

扫一扫