KMP算法
在此我们以一道模板题来阐述该算法:
问题:求一个字符串S中每次字符串P出现的起始下标。
我们可以暴力来算:
#include <iostream>
#include <string>
#include <algorithm>
using namespace std;
string s, p;
int main(void){
cin >> p;
cin >> s;
int len1 = s.length();//大
int len2 = p.length();
int j;
for(int i = 0; i < len1; i ++){
int t = i;
for(j = 0; j < len2; j ++){
if(s[t] != p[j]){
break;
} else t ++;
}
if(j == len2){
cout << i << " ";
}
}
return 0;
}
我们来思考一个优化:
当遍历到S的i位置时, 这时S[i-j+1, i] 和P[1, j]相同,但下一个位置不匹配。这时我们从i这个位置相当于要从P的j的某个之前位置来重新区配。
也就是下图中的P(2)情况了;
这是我们发现,P(1)(即前一次区配的情况)和P(2)是很大情况有重叠的(除非只能从头再来,但这不是现在讨论的问题,下面将会涉及到这个问题),这时,我们不妨对字符串P做一个处理, 设置一个ne数组,含义ne[i] = j
表示以下标i - j为起点,i为终点的那段字符串和以0为起点,j为终点的字符串相等。如下图所示:
那么当我们遍历S的下标为i的位置时与P此时的位置j+1不相等时不相等时,我们便可直接调用 j = ne[j]
来进行递归操作,满足的条件应为:s[i] == p[j + 1]
当要从P的起始位置开始遍历时,我们也要加一个判断条件,参见下述例题代码;
代码亮点:递归的应用。
下面代码我们是从下标1开始算的。
#include <iostream>
using namespace std;
const int N = 1e5 + 10, M = 1e6 + 10;
int n, m;
int ne[N];
char s[N], p[M];
int main(void){
cin >> n >> p + 1 >> m >> s + 1;
//对p进行自身区配,计算出ne数组。
for(int i = 2, j = 0; i <= n; i ++){
while(j && p[i] != p[j+1]) j = ne[j];
if(p[i] == p[j + 1]) j ++;
ne[i] = j;
}
for(int i = 1, j = 0; i <= m; i ++){
while(j && s[i] != p[j+1]) j = ne[j];
if(s[i] == p[j+1]) j ++;
if(j == n){
printf("%d ", i - n);
j = ne[j];
}
}
return 0;
}