本人在校学生,因参与竞赛,负责字符串处理部分的题目,于是接触了kmp算法,kmp算法如果结合实例去理解的话比较简单,空谈理论就会有很大的问题,因为单凭理论去学kmp,非常抽象......所以`我在这里整理一手kmp算法,当做是学习笔记.
要谈kmp算法,首先讲讲暴力来做字符串匹配.
BF
针对于求一个短字符串在长字符串出现的位置,这种问题可以采取暴力匹配的方法去做.
举个例子,输入s(短),t(长)两个字符串,输出t在s中出现的所有位置我们可以采用用bf做法,分别从s,t的头开始匹配,如果两者第一位相等,那么就分别向两者的下一位去匹配,如果不相等,就将s的第一位与t的该位匹配,以此循环,直到短字符串s被全部匹配完,此处就是子串出现的第一个位置,以此类推,就可以求出所有位置.(str为长串,str1为短串)
#include<iostream>
#include<string>
using namespace std;
int main()
{
string str,str1;
cin>>str>>str1;
int len=str.size(),len1=str1.size(),i=0,j=0;
while(i<len)
{
if(str[i]==str1[j])
{
i++;
j++;
}
else if(str[i]!=str1[j])
{
i=i-j+1;
j=0;
}
if(j==len1)
{
cout<<i-len1+1<<endl;
}
}
return 0;
}
这种方法需要将长字符串的从每位都开始匹配,看从该位开始,与短字符串对比,一直到短串匹配完,完全相等,则找到了该短串在长串出现的位置.这种做法很清晰,但是时间复杂度是n*m(两个字符串长度的乘积).很浪费时间,所以,由D.E.Knuth,J.H.Morris和V.R.Pratt三位大牛提出的kmp算法进入了人们的视野,它只比暴力做法多用了一点点空间,时间复杂度是n+m!
下面我们就来看看kmp算法.
kmp
kmp算法拥有一个预处理,也就是p数组处理,处理的是子串的前后缀最大匹配长度,这个是整个kmp算法的核心,kmp算法本身其实与bf差不多,但是多了个p数组来维护,可以节省很多的时间.
p数组,是kmp算法预处理的产物,p[i]的意思就是,把长字符串从某处开始向后i位与短字符串前i个字符对齐匹配成功(即每一位都相等),到i+1后不匹配,此时长串和短串的最长匹配长度.然后再向后移动p[i]个格子进行下一次匹配.肯比较麻烦,先对于kmp算法进行理解,预处理放在后面理解.
kmp算法其实与bf算法差不多,都是从头开始对两字符串的元素进行对比,若成功都是一直往下匹配,不成功就要向后移动短串的位置,进行新的一轮的匹配,区别就在于如果是bf做法,我们每次直往后面移动一格,然后继续匹配,直到将短串匹配到尾为止,就算是匹配完成了,但是kmp算法向后移动的不是一格,而是令子串前后缀匹配的应该移动的长度.
那么kmp核心代码也就出来了:
int len=str.size(),len1=str1.size(),i=0,j=0;
while(i<len)
{
if(str[i]==str1[j])
{
i++;
j++;
}
else if(str[i]!=str1[j])
{
j=p[j];
}
if(j==len1)
{
cout<<i-len1+1<<endl;
break;
}
}
这里的i,和j可以看做两个指针,i指着长串,j指着短串,len为长串长度,len1为短串长度.匹配成功继续匹配,匹配不成功就把短串向后拉,相当于把指针j向前移动这种情况下存在p数组中应该移动的步数.然后当匹配完成,j指向的是短字符串尾部,直接输出长串中该短串的位置.
其实这一部分好理解,可是到底我们该怎么确定移动多少步呢,也就是到底该怎么预处理,p里面该怎么存呢?如果我们没匹配完,当然是希望往后一步就找到可以进行新的匹配的,那么也就是1到i这段内,短字符串的从1开始m个和长字符串从后往前的m个,如果相等(都是从左到右的顺序看),那么就向后移动,把短串的开头与长串从后往左m个相匹配,例如:
当第一次匹配完之后,我们发现长串最后2位和短串最前面二位是相等的,如果此时如图移动,就会出现一个新的AB已经匹配好了,这样就会省去很多繁琐无谓的操作.当然,你也会发现,其实长串的最后两位和短串的最后两位是相等的,当匹配区域长度为i时,短串最长的前缀和后缀相等的长度被求出来了,然后再将短串移动到后缀开始的位置,也就是.这样就可以实现剪枝.然后要求p数组,只需要短串自己与自己进行匹配,求出每一次要移动的步数.
代码如下:
int i=0,j=-1,len1=str1.size();
p[i]=j;
while(i<len1)
{
if(str1[i]==str1[j]||j==-1)
{
i++;
j++;
p[i]=j;
}
else
{
j=p[j];
}
}
既然是求每次匹配失败后,j应该在的位置(就是前缀和后缀相等,且长度最长,后缀的第一位).代码的过程,先令p[1]=0,且刚开始i=j+1,要是不能匹配j=p[j],如果此时还没有出现过相等,那么j就一直变成0,相当于每次都把它向后移动到j指向0的位置,如果有一个产生的相等,那么就记录.以此类推:
如图,第一步到第n步之前p数组里存的都是0,说明前n步,截取前n个进行对比,都不用往后移动,直到第n步出现匹配才记录.
这就是最基本的kmp算法,可以用于解决循环节,字符串匹配等问题.如果文中有何错误,望巨巨指正.