KMP字符串匹配(南昌理工学院ACM集训队)
前言
在许多算法问题中,都需要我们在一个字符串主串中寻找他的子串所在的位置;
对于传统的字符串匹配,对主串首部与模式串首部对齐,单个字符进行匹配,当匹配错误时,模式串相对与主串向前进一位,重头开始匹配(如图);
传统的匹配方法从开头一直匹配到末尾,这样的时间复杂度为O(n*m);
注:m与n分别为主串与模式串的长度;
而KMP算法可以将时间复杂度缩短到O(n+m);
算法简介
KMP算法:充分利用模式串中字符的重复性,在比较时实现最大限度的移动量;
KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n);
next数组:保存的就是一个固定字符串的最长前缀和最长后缀相同的长度。
对于每个next[i],保存的就是主串前i+1个字符组成的字符串的最长前后缀的长度;
例如:对于串ABABCA
它的next数组为{0,0,1,2,0,1};
而常见next数组用法是:对于上述数组,将数组中所有值后移一位,令next[0]=-1;
即next[]={ -1 , 0 , 0 , 1 ,2, 0 } ;
意为:遇到字符不匹配时将该位置与模式串第next [ i ] 位置对其;
至于为何将next数组作如此转变,为了方便后续匹配过程;
在此,吹爆一位B站UP主:正月点灯笼;
大家可以去看看这位大佬的教学视频:B站传送门(KMP字符串匹配)
算法实现
next数组构造:
void f(string c,int n)//对于c的next数组的构造函数;
{
int i=0;
int k=-1;
Next[0]=-1;//起始赋值为-1;
while(i<=n){
if(k==-1||c[i]==c[k]){//构造每个子串的最长前后缀;
i++;
k++;
Next[i]=k;
}
else k=Next[k];
}
}
KMP匹配
int i=0,j=0;
while(i<m){
if(j==n-1&&s[i]==c[j]){//匹配完成;
cout<<"找到匹配的位置为:"<<i-j<<endl;
j=Next[j];
}
if(s[i]==c[j]){//当两个字符相等时,i,j同时加一;
i++;
j++;
}
else{//当两个字符不相等时,使用next数组进行前移;
j=Next[j];
if(j==-1){//两个字符不相等且为模式串第一个字符,则i与j同时加一;
i++;
j++;
}
}
}
例题
题出luoguP3375【模板】(KMP字符串匹配)——>传送门
数据规模:
对如题数据规模,使用传统匹配方法会导致程序超时;
直接贴AC代码:
#include<cstdio>
#include<cstring>
#include<cmath>
#include<algorithm>
#include<iostream>
#include<vector>
#include<set>
#include<map>
#include<queue>
#include<unordered_map>
#include<string>
typedef long long ll;
using namespace std;
string s;
string c;
int Next[1000005];
int dis[1000005];
int n;
void f()
{
int i=0;
int k=-1;
Next[0]=-1;
while(i<=n){
if(k==-1||c[i]==c[k]){
i++;
k++;
Next[i]=k;
}
else k=Next[k];
}
}
int main()
{
cin>>s>>c;
n=c.length();
f();
int m=s.length();
int i=0,j=0;
int b=0;
while(i<m){
if(j==n-1&&s[i]==c[j]){
dis[b++]=i-j+1;
j=Next[j];
}
if(s[i]==c[j]){
i++;
j++;
}
else{
j=Next[j];
if(j==-1){
i++;
j++;
}
}
}
for(int i=0;i<b;i++){
cout<<dis[i]<<endl;
}
for(int i=1;i<=n;i++){
cout<<Next[i]<<' ';
}
return 0;
}
无论如何,人生是美丽的!