字符串-KMP
作用:在一个文本字符串中找模式字符串出现次数、位置。
前缀知识: 字符串 \color{#60d000}\texttt{字符串} 字符串。
算法名字来源:发明人 Knuth(D.E.Knuth)&Morris(J.H.Morris)&Pratt(V.R.Pratt) \texttt{Knuth(D.E.Knuth)\&Morris(J.H.Morris)\&Pratt(V.R.Pratt)} Knuth(D.E.Knuth)&Morris(J.H.Morris)&Pratt(V.R.Pratt)。
讲解:
比如要在文本字符串 a = ababaababaabab a=\texttt{ababaababaabab} a=ababaababaabab 中找模式字符串 b = abaabab b=\texttt{abaabab} b=abaabab,暴力的做法就是枚举 a [ i ] = = b [ 1 ] a[i]==b[1] a[i]==b[1],然后对 a [ i ∼ i + l e n ( b ) − 1 ] a[i\sim i+len(b)-1] a[i∼i+len(b)−1] 和 b [ 1 ∼ l e n ( b ) ] b[1\sim len(b)] b[1∼len(b)] 进行匹配,代码:
#include <bits/stdc++.h>
using namespace std;
const int N=1e6+10;
int n,m,ans;
char a[N],b[N];
int main(){
scanf("%s%s",a+1,b+1);
n=strlen(a+1),m=strlen(b+1);
for(int i=1;i<=n-m+1;i++)
if(a[i]==b[1]){
bool ok=1;
for(int j=2;j<=m;j++)
if(a[i+j-1]!=b[j]){
ok=0;break;} //#
if(ok) ans++;
}
printf("%d\n",ans);
return 0;
}
时间复杂度为 Θ ( n × m ) \Theta(n\times m) Θ(n×m),爆率百分百。而 Θ ( n + m ) \Theta(n+m) Θ(n+m) 的KMP的精华就在于,每次上面代码标记的那行失配(匹配失败, a [ i + j − 1 ] ! = b [ j ] a[i+j-1]!=b[j] a[i+j−1]!=b[j])以后,不需要让模式串 b b b 从头开始匹配,而是跳到一个固定的位置,开始匹配。
如下,灰色表示待匹配,绿色表示正在匹配(成功),红色表示正在匹配(失败),黑色表示已经匹配:
ababaababaabab \color{gray}\texttt{ababaababaabab} ababaababaabab
abaabab \color{gray}\texttt{abaabab} abaabab
a babaababaabab \color{#60c000}\texttt{a}\color{gray}\texttt{babaababaabab} ababaababaabab
a baabab \color{#60c000}\texttt{a}\color{gray}\texttt{baabab} abaabab
a b abaababaabab \color{black}\texttt{a}\color{#60c000}\texttt{b}\color{gray}\texttt{abaababaabab} ababaababaabab
a b aabab \color{black}\texttt{a}\color{#60c000}\texttt{b}\color{gray}\texttt{aabab} abaabab
ab a baababaabab \color{black}\texttt{ab}\color{#60c000}\texttt{a}\color{gray}\texttt{baababaabab}