最后一个月的倔强,希望心想事成。
1. next数组
首先是next数组。kmp的核心无非于next数组:
- n e x t [ 0 ] = − 1 / 0 next[0]=-1 / 0 next[0]=−1/0
- n e x t [ i ] 表 示 模 式 串 的 前 i 个 字 符 的 最 长 公 共 前 后 缀 的 长 度 next[i]表示模式串的前i个字符的最长公共前后缀的长度 next[i]表示模式串的前i个字符的最长公共前后缀的长度
- 出现失配的时候,因为前 j 个字符有 n e x t [ j ] next[j] next[j] 个最长公共前后缀,就说明现在这里失配了但是前面的有 n e x t [ j ] next[j] next[j] 个字符是不用再次匹配的,所以模式串向右移动 j − n e x t [ j ] j-next[j] j−next[j] 个单位,即 j = n e x t [ j ] j=next[j] j=next[j] 。
- 值得一提的是: 设 l e n 为 n − n e x t [ n ] 设len为n-next[n] 设len为n−next[n]
- 如 果 n e x t [ n ] 不 为 0 且 n 是 l e n 的 倍 数 , 那 么 该 串 的 最 小 循 环 节 是 n − n e x t [ n ] , 且 循 环 次 数 为 n / l e n ; 如果next[n]不为0且n是len的倍数,那么该串的最小循环节是n-next[n],且循环次数为n/len; 如果next[n]不为0且n是len的倍数,那么该串的最小循环节是n−next[n],且循环次数为n/len;
- 否则该串需添加 len - n%len 个字符才能形成循环串。(n%len在这里为串中后缀属于循环串的一部分)
void getnexts(){
ll i=0,j=-1;
nexts[i]=j;
while(i<m){
if(j==-1||p[i]==p[j]) nexts[++i]=++j;
else j=nexts[j];
}
}
2. kmp匹配过程
如果说next数组的匹配过程是模式串匹配自身,那么kmp的过程就是模式串匹配文本串。
说实话也就是回溯过程与暴力不一样而已,但是这就是一个很大的优化点。
匹配结束后,如果
j
=
=
m
j==m
j==m说明模式串匹配结束,即在文本串中出现在
i
−
j
i-j
i−j的位置上。
ll kmp(){
getsnexts();
ll i=0,j=0;
while(i<n&&j<m){
if(j==-1||s[i]==p[j]) ++i,++j;
else j=nexts[j];
}
if(j==m) return i-j;
return -1;
}
3. 有点模板且需要一点思考的题 (适合初学者/复习)
1.next求补齐循环节 :
运用上述next的内容即可。
2.next求有多少子串为其原串的前缀 :
提示:next[i]表示最长公共前后缀,那么这个后缀长度即为匹配的前缀。
3.求模式串前缀与文本串后缀的最大匹配 :
不难想到把文本串皆在模式串后面,但要考虑一下
n
e
x
t
[
m
+
n
]
>
m
∣
∣
n
e
x
t
[
n
+
m
]
>
n
next[m+n]>m||next[n+m]>n
next[m+n]>m∣∣next[n+m]>n的情况。
4.next求循环周期 :
运用上述next的内容即可。
5.求模式串中 E+A+E+B+E(其中AB为任意长度的子串) E的最大长度 :
find的暴力美学。
6.next遍历求循环节+循环周期 :
运用上述next的内容即可。
7.next求既是前缀又是后缀的子串长度 :
运用上述next的内容即可。