KMP算法详解看 http://www.matrix67.com/blog/archives/115
next[i]表示当模式串T[i]与主串失配时,模式串的索引回溯到next[i],主串的索引不变
下面串的下标均从0开始
-1 i==0
next[i] =
max{ k|0≤k<i } T[0...k-1] == T[i-k...i-1]
证明模式串next函数的可行性
当T[i] 与 S[j] 失配时,即 T[i] != S[j]时
可得
T[ 0...i-1 ] = S[ j-i...j-1 ] 式1
令k=next[i].由式1可得
T[ i-k...i-1 ] = S[ j-k...j-1 ] 式2
又因为
T[ 0...k-1 ] = T[ i-k...i-1 ] 式3
由式2和式3可得
T[ 0...k-1 ] = S[ j-k...j-1 ] 结论
由结论可知,当T[i] 与 S[j]失配时,模式串的前k(next[i]的值)个字符与主串中在j之前的k个字符相等。因为串的下标从0开始,所以模式串T[i]与主串S[j]失配时,回溯的位置正好是k.
所以模式串的索引只需从i回溯到next[i],即上文的k. 而主串的索引j保持不变,然后模式串从next[i]开始于主串从j开始尝试匹配。
从而达到了一种效果,主串的索引不需要回溯,需要回溯的只是模式串的索引。
假如模式串T为:abaabcac 则它对应的next值为
假如模式串T为:abababa。则它对应的next值为
在没有修正的情况下
假如当模式串T为:abababa.那么T[3] 与 主串失配时,模式串的索引回溯到1,然而T[1] == T[3] = 'b',所以T[1] 与 主串必然失配,所以这个回溯是没有意义的。
修正后,在确定next[i]是否为k之前,做以下的判断
若T[i] != T[j], 那么 next[i] = k
若T[i] == T[j], 那么 next[i] = next[j]