KMP算法
——HM
KMP算法是一种即为经典但却不常用的算法,反正竞赛是很少考这个了,但至少应该了解一下。
KMP算法应用于以下这题:
有一个文本串T和一个模式串W。问文本串中有多少个模式串。
这个问题又被我们称为字符串匹配问题。
暴力思路:
当然,第一个思路是暴力模拟。穷举模式串的第一个字母与文本串第i个进行比较,再进行第二轮,直到完全匹配或者匹配被打断。如第一次先将T0与W0相互匹配,相同则匹配T1与W1,一直当匹配不上时,就舍弃以前所有的匹配信息,重新让T1与W1匹配······
这样显然效率太低,时间复杂度大约是O(mn),如果数据不水的话,绝对会TLE。
KMP算法思路:
KMP算法的精髓就在于它将许多无用的位移匹配操作省去,从而使时间复杂度大大降低。它是怎么实现的呢?
假设有文本串T:a b a c a a b a c a b a c a b a a b b
与模式串W:a b a c a b
第一次匹配时,w5与T5不匹配,
T:a b a c a a b a c a b a c a b a a b b
W: a b a c a b
便舍去,其中T0~T4为已经匹配的模式串,然后找出相同的最长的前缀和后缀使它们重合,然后再从刚刚匹配失败的地方进行匹配。
T:a b a c a a b a c a b a c a b a a b b
W:a b a c a b
T5不重合,于是将整个模式串一直移动到T4的位置,得到第二次匹配结果:
T:a b a c a a b a c a b a c a b a a b b
W: a b a c a b
发现匹配了,便匹配T6,同时将ans++,以此类推···
那么最长前缀和后缀相同怎么求呢?先举几个例子:
abcdaaab的最长前缀后缀相同串为ab
acdeacde的最长前缀后缀相同串为acde
hmhmh的最长前缀后缀相同串为hmh
acdas的最长前缀后缀合同串是不存在的。
就这样进行位移来实现最大化的移动距离,减少匹配次数,从而达到优化的效果。时间复杂度O(m+n)
附代码:
#include <iostream>
#include <cstring>
using namespace std;
const int SIZE=100005;
int main()
{
string Ts,Ws,s,Temp1,Temp2;
cin>>Ts>>Ws;
int n=Ts.size()-1,m=Ws.size()-1;
int next[SIZE],j;
//求前缀后缀
for (int i=0;i<=n;i++){
s=s.substr(0,i+1);
for (int j=1;j<=s.size();j++){
Temp1=s.substr(0,j); //穷举前缀
Temp2=s.substr(s.size()-j,j); //穷举后缀
if (Temp1==Temp2) next[i]=j; //相等时为相同前缀后缀串
}
}
for (int i=0;i<=n;i++){
for (j=0;j<=m;j++)
if (Ts[i+j]!=Ws[j]) break;
if (j-1==m){ //j总是会多1,要减去
cout<<i+1<<' '; //打印匹配位置
continue;
}
else i+=next[j]; //进行位移
}
return 0;
}