KMP 算法是由 Knuth、Morris 和 Pratt 3 人设计的线性时间字符串匹配算法。此算法可以在 O(n+m) 的时间数量级上完成串的模式匹配操作。其改进在于:每一趟匹配过程中出现比较的两个字符不等时,不需要回溯 i 指针,而是利用已经匹配部分的性质,将模式串向右“滑动”尽可能远的一段距离后,再继续进行比较。
举一个简单模式匹配的例子:给定字符串 T = "abcac",S = "ababcabcacbab",判断 T 是不是 S 的子串。
第一趟匹配是在 i = 2,j = 2 时匹配失败,这时 i 指针不回溯,从 i = 2,j = 0 继续匹配。第二趟匹配是在 i = 6,j = 4 时匹配失败。这时仔细观察可以发现,T(0) = S(5),所以可以从 i = 6,j = 1 继续匹配,直至匹配成功。
现在讨论一般情况:假设主串为 “S0S1...Sn-1”,模式串为 “P0P1...Pm-1”,从上例的分析可知,为实现KMP算法,需要解决下述问题:当匹配过程中产生“失配”(即Si ≠ Pj)时,模式串“向右滑动”可行距离有多远,也就是说,当主串中第 i 个字符与模式串中第 j 个字符匹配失败时,主串中第 i 个字符与模式串中哪个字符再比较可使得出比较的次数最少?
由上述问题可知,当模式串某个位置匹配失败时,为使得匹配次数最少,接下来要匹配的位置是确定的,且只和模式串本身有关,记作 next[x],其中 x 为匹配失败处字符下标。
next 函数定义为
得到 next 数组的程序实现:
void get_next()
{
int i = 0, j = -1;
next[0] = -1;
while (i < len)
{
if (j == -1 || str[i] == str[j])
next[++i] = ++j;
else j = next[j];
}
}