kmp算法个人理解
kmp算法意在解决在主串(T)中寻找子串(P)的问题,本文不关心kmp算法推导过程。主要是记录对next数组(前缀函数)的理解以及对匹配过程的理解。
假设有一个主串T = “baabcbbaabcbbaaba”,子串P = “baabcbbaaba”,next[]数组如下
i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|---|
P | b | a | a | b | c | b | b | a | a | b | a |
next | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 2 | 3 | 4 | 2 |
next数组求解代码如下,next[j]表示P{0,…,j}的最大前缀值。
最难理解的是j = next[j - 1] (无限回退找次大前缀值进行匹配,直到j = 0)
例如,当i = 10时,此时j = 4, 最大前缀值4, P[0,9] 最长前缀序列"baab" , 次长前缀序列"b"。因为P[10] != P[4],需要j回退到j=next[4-1] = 1。
然后找到P[0,10] 最长前缀序列"ba"。
//求next数组代码块
vector<int> next(P.size());
for (int i = 1, j = 0; i < P.size(); i++) {
while (j > 0 && P[i] != P[j]) {
j = next[j - 1];
}
if (P[i] == P[j]) {
j++;
}
next[i] = j;
}
当子串已经完成匹配T = “baabcbbaabcbbaaba”,P = “baabcbbaaba”。下一个匹配的字符T[10] = ‘c’, P[10] = ‘a’,此时T[10] != P[10]。j = next[10 - 1] = next[9] = 4。回退到已匹配的串P[0,9]最长前缀序列的下一个字符接着匹配,如果匹配不上就再次回退,直到回退到P[0]。
//匹配过程代码块
for (int i = 0, j = 0; i < T.size(); i++) {
while (j > 0 && T[i] != P[j]) {
j = next[j - 1];
}
if (T[i] == P[j]) {
j++;
}
if (j == m) {
return i - m + 1;
}
}