kmp算法初探

本人在校学生,因参与竞赛,负责字符串处理部分的题目,于是接触了kmp算法,kmp算法如果结合实例去理解的话比较简单,空谈理论就会有很大的问题,因为单凭理论去学kmp,非常抽象......所以`我在这里整理一手kmp算法,当做是学习笔记.

要谈kmp算法,首先讲讲暴力来做字符串匹配.

BF

针对于求一个短字符串在长字符串出现的位置,这种问题可以采取暴力匹配的方法去做.

举个例子,输入s(短),t(长)两个字符串,输出t在s中出现的所有位置我们可以采用用bf做法,分别从s,t的头开始匹配,如果两者第一位相等,那么就分别向两者的下一位去匹配,如果不相等,就将s的第一位与t的该位匹配,以此循环,直到短字符串s被全部匹配完,此处就是子串出现的第一个位置,以此类推,就可以求出所有位置.(str为长串,str1为短串)

#include<iostream>
#include<string>
using namespace std;
int main()
{
	string str,str1;
	cin>>str>>str1;
	int len=str.size(),len1=str1.size(),i=0,j=0;
	while(i<len)
	{
		if(str[i]==str1[j])
		{
			i++;
			j++;
		}
		else if(str[i]!=str1[j])
		{
			i=i-j+1;
			j=0;
		}
		if(j==len1)
		{
			cout<<i-len1+1<<endl;
		}
	}
	return 0;
}

这种方法需要将长字符串的从每位都开始匹配,看从该位开始,与短字符串对比,一直到短串匹配完,完全相等,则找到了该短串在长串出现的位置.这种做法很清晰,但是时间复杂度是n*m(两个字符串长度的乘积).很浪费时间,所以,由D.E.Knuth,J.H.Morris和V.R.Pratt三位大牛提出的kmp算法进入了人们的视野,它只比暴力做法多用了一点点空间,时间复杂度是n+m!

下面我们就来看看kmp算法.


kmp

kmp算法拥有一个预处理,也就是p数组处理,处理的是子串的前后缀最大匹配长度,这个是整个kmp算法的核心,kmp算法本身其实与bf差不多,但是多了个p数组来维护,可以节省很多的时间.

p数组,是kmp算法预处理的产物,p[i]的意思就是,把长字符串从某处开始向后i位与短字符串前i个字符对齐匹配成功(即每一位都相等),到i+1后不匹配,此时长串和短串的最长匹配长度.然后再向后移动p[i]个格子进行下一次匹配.肯比较麻烦,先对于kmp算法进行理解,预处理放在后面理解.

kmp算法其实与bf算法差不多,都是从头开始对两字符串的元素进行对比,若成功都是一直往下匹配,不成功就要向后移动短串的位置,进行新的一轮的匹配,区别就在于如果是bf做法,我们每次直往后面移动一格,然后继续匹配,直到将短串匹配到尾为止,就算是匹配完成了,但是kmp算法向后移动的不是一格,而是令子串前后缀匹配的应该移动的长度.

 那么kmp核心代码也就出来了:

int len=str.size(),len1=str1.size(),i=0,j=0;
while(i<len)
{
	if(str[i]==str1[j])
	{
		i++;
		j++;
	}
	else if(str[i]!=str1[j])
	{
		j=p[j];
	}
	if(j==len1)
	{
             cout<<i-len1+1<<endl;
             break;
	}
}

这里的i,和j可以看做两个指针,i指着长串,j指着短串,len为长串长度,len1为短串长度.匹配成功继续匹配,匹配不成功就把短串向后拉,相当于把指针j向前移动这种情况下存在p数组中应该移动的步数.然后当匹配完成,j指向的是短字符串尾部,直接输出长串中该短串的位置.

其实这一部分好理解,可是到底我们该怎么确定移动多少步呢,也就是到底该怎么预处理,p里面该怎么存呢?如果我们没匹配完,当然是希望往后一步就找到可以进行新的匹配的,那么也就是1到i这段内,短字符串的从1开始m个和长字符串从后往前的m个,如果相等(都是从左到右的顺序看),那么就向后移动,把短串的开头与长串从后往左m个相匹配,例如:

当第一次匹配完之后,我们发现长串最后2位和短串最前面二位是相等的,如果此时如图移动,就会出现一个新的AB已经匹配好了,这样就会省去很多繁琐无谓的操作.当然,你也会发现,其实长串的最后两位和短串的最后两位是相等的,当匹配区域长度为i时,短串最长的前缀和后缀相等的长度被求出来了,然后再将短串移动到后缀开始的位置,也就是.这样就可以实现剪枝.然后要求p数组,只需要短串自己与自己进行匹配,求出每一次要移动的步数.

 

代码如下:

        int i=0,j=-1,len1=str1.size();
	p[i]=j;
	while(i<len1)
	{
		if(str1[i]==str1[j]||j==-1)
		{
			i++;
			j++;
			p[i]=j;
		}
		else
		{
			j=p[j];
		}
	} 

既然是求每次匹配失败后,j应该在的位置(就是前缀和后缀相等,且长度最长,后缀的第一位).代码的过程,先令p[1]=0,且刚开始i=j+1,要是不能匹配j=p[j],如果此时还没有出现过相等,那么j就一直变成0,相当于每次都把它向后移动到j指向0的位置,如果有一个产生的相等,那么就记录.以此类推:

 如图,第一步到第n步之前p数组里存的都是0,说明前n步,截取前n个进行对比,都不用往后移动,直到第n步出现匹配才记录.

这就是最基本的kmp算法,可以用于解决循环节,字符串匹配等问题.如果文中有何错误,望巨巨指正.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值