KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与文本串的匹配次数以达到快速匹配的目的。具体实现就是通过一个init_next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)。
我们称一个字符串的公共前后缀为字符串的一个border。在这里所说的前后缀都为真前后缀(不包括字符串本身)
例如:abcab的border 就只有一个,那就是ab。
aaaa的border就有a,aa,aaa,三个,那么最长的border就为aaa,长度为3.
const int N = 1e6+5;
int nt[N];
void init_next(const string & s)
{
int len = s.size();
int pr = 0;
nt[0] = 0;
for(int i=1;i<len;i++){
while(pr&&s[pr]!=s[i]) pr = nt[pr-1];
if(s[pr]==s[i]) pr++;
nt[i] = pr;
}
}
跑玩init_next函数后会的到一个记录模式串所有前缀的最长border。
在那之后,就可以跑KMP。
int main()
{
string a,b;
cin >> a >> b;
int lena = a.size(),lenb = b.size();
init_next(b);
for(int i=0,j=0;i<lena;i++){
while(j&&a[i]!=b[j]) j = nt[j-1];
if(a[i]==b[j]) j++;
if(j==lenb) cout << i-lenb+2 << endl;//存字符串是从下标0开始,所以是下标+1,即为(i-lenb+1)+1
}
for(int i=0;i<lenb;i++) cout << nt[i] << ' '; // 输出nt数组
return 0;
}
匹配的思想就是:但一个字符匹配不上时,就把模式串跳到可以匹配上字符的最长border重合的位置,继续匹配。
完整的代码:
#include <bits/stdc++.h>
using namespace std;
const int N = 1e6+5;
int nt[N];
void init_next(const string & s)
{
int len = s.size();
int pr = 0;
nt[0] = 0;
for(int i=1;i<len;i++){
while(pr&&s[pr]!=s[i]) pr = nt[pr-1];
if(s[pr]==s[i]) pr++;
nt[i] = pr;
}
}
int main()
{
string a,b;
cin >> a >> b;
int lena = a.size(),lenb = b.size();
init_next(b);
for(int i=0,j=0;i<lena;i++){
while(j&&a[i]!=b[j]) j = nt[j-1];
if(a[i]==b[j]) j++;
if(j==lenb) cout << i-lenb+2 << endl;//存字符串是从下标0开始,所以是下标+1,即为(i-lenb+1)+1
}
for(int i=0;i<lenb;i++) cout << nt[i] << ' '; // 输出nt数组
return 0;
}
这里给的程序是洛谷模板题的解。