问题引入
长度为n的字符串T,长度为m的模式串P,要从T中找到所有的匹配点i,使得T[i~i+m-1] = P[0~m-1]
解决方法
- 朴素的方法
一个一个位置检查,每个位置都需要O(m)的复杂度,可能的匹配点可能有O(n-m)个所以复杂度基本上约等于O(nm) - KMP方法
O(m) 的时间对模式串P进行预处理,然后用O(n)的时间进行匹配。所以时间负载度是O(m + n)。
KMP实现
要理解KMP最终要的是理解失配数组——fail数组(这里参考蓝书的写法,是为了更好理解AC自动机打基础!)。
我理解的思想:
模式串有可能在结构上有重复性,是指的是模式串中间的子串和前缀重复,这样的话在字符串中期匹配的过程中失配的话不用从头重新匹配。
举个例子,模式串:abeabc,当在最后一个c失配了,就需要从第一个ab后的e开始匹配,如果还是无法匹配就从头匹配。
查找的代码:
void find(char* T, char* P, int *f) {
int n = strlen(T), m = strlen(P);
getFail(P, f);
int j = 0;
for(int i = 0; i < n; i++) {
while(j && P[j] != T[i]) j = f[j];
if(P[j] == T[i]) j++;
if(j == m) printf("%d\n", i - m + 1); // 找到了
}
}
Fail 数组的获得
思想:用自己匹配自己,具体实现看代码
void getFail(char *P, int* f) {
int m = strlen(P);
f[0] = 0, f[1] = 0; // 地推的边界
for(int i = 1; i < m; i++) {
int j = f[i];
while(j && P[i] != P[j]) j = f[j]; // 就相当于使用已经推出来的失配数组
f[i+1] = P[i] == P[j] ? j + 1 : 0;
}
}
这样写也OK:
int i = 0;
int j = nxt[0] = -1;
for(;i <= m;) {
if(j == -1 || ss[i] == ss[j]) {
i++;
j++;
nxt[i] = j;
}
else j = nxt[j];
}
}
```
# 循环节
准确来说是前缀是周期性的字符串的判断,求周期数,求每个周期长度的方法。
判断:i % (i - f[i]) == 0(i != i - f[i],否则相当于周期为1)
周期数:i / (i-f[i])
周期长度:i - f[i]