Knuth-Morris-Pratt字符串查找算法,简称为“KMP算法”,常用于在一个文本串S中查找一个模式串P的出现位置。
一、算法流程
假设S匹配到i位置,P匹配到j位置:
1.如果j == -1, 或S[i] == P[j], 则i++, j++, 匹配下一个字符;
2.如果j != -1, 或S[i] != P[j], 则视为匹配失败,但相较于传统算法而言,KMP算法不需要回溯S, 只需要回溯P。也就是说,i不变,j = next[j]。 对于next数组的含义,将在下一章说明。
代码如下:
int KMP(char * s, char * p){
int i = 0,j = 0;
int slen = strlen(s);
int plen = strlen(p);
while(i < slen && j < plen){
if(j == -1 || s[i] == p[j]){
i++, j++;
}
else{
j = next[j];
}
}
if(j == plen)
return i - j;
else
return -1;
}
二、对于next数组的解释
如果next[j] = k(k > 0), 则代表j之前的字符串中有最大长度为k的相同前缀后缀。
如果k为0或者-1,则代表j将退回P的开头。
1.前缀后缀的最长公共元素长度
eg.对于字符串"ABCDAB", 最长公共元素长度为2:
前缀:A, AB, ABC, ABCD, ABCDA;
后缀:B, AB, DAB, CDAB, BCDAB;
在前缀和后缀中,可以看见最长的公共元素是AB,所以长度为2.
2.next数组的含义
当模式串与要匹配的字符串失配时,按理说,S中匹配的位置要退回一开始匹配的位置,而P的位置则要退回第一个位置从头开始,这样就带来了很多重复的无效匹配。KMP算法的改进就体现在这里:失配时,next数组会告诉你模式串应该退回到哪里,而不是全都从头开始,并且这样就不需要回溯S中要匹配的位置了。
3.求next数组的方式
next数组考虑的是将除当前字符外的最长相同前缀后缀,所以要对本章第一节中的方式求出来的结果进行处理,处理方式为将结果--,将初值赋值为-1.
求next数组是以递归的方式进行的。如果已知next[0]到next[j]的值,且假设next[j] = k, 则求解next[j+1]的方式如下:
1.如果P[k] == P[j], 则next[j + 1] = next[j] + 1 = k + 1;
2.如果P[k] != P[j], 则进行进一步判定:如果P[next[k]] == P[j], 则next[j + 1] = next[k] + 1,如果还是不相等,那么继续令k = next[k]递归寻找。
代码如下:
void get_next(char * p, int next[]){
int plen = strlen(p);
next[0] = -1;
int k = -1, j = 0;
while(j < plen - 1)
{
if(k == -1 || p[j] == p[k]){
++j,++k;
next[j] = k;
}
else{
k = next[k];
}
}
}
三、例题(洛谷P4391 无线传输)
题目描述
给你一个字符串 s1,它是由某个字符串 s2 不断自我连接形成的。但是字符串 s2 是不确定的,现在只想知道它的最短长度是多少。
输入格式
第一行一个整数 L,表示给出字符串的长度。
第二行给出字符串 s1 的一个子串,全由小写字母组成。
输出格式
仅一行,表示 s2 的最短长度。
1.题目分析
首先给出结论:ans = n - next[n]。下面给与证明:
由样例我们可以看到,输入的字符串是若干重复字符串的子串,也就是说,输入的字符串可以由一下三个部分组成:
1)左边多出的部分,设这部分为x;
2)中间由若干重复的a组成,假设重复了p次,设这部分为p * a;
3)右边多出的部分,设这部分为y;
其中,x是a的前缀,y是a的后缀。
因为字符串从0开始,所以我们求next[n]的时候直接用上面的例子中求最大前缀后缀长度的方法就行。
最大的相同前缀后缀为:x + (p - 1) * a + y。
那么,因为 n = x + p * a + y, 与这个最大前缀后缀相减,结果就是a,答案也就出来了。
2.AC代码
# include <iostream>
# include <cstring>
using namespace std;
int l,n[1000050];
char ss[1000050];
void get_next(char *p)
{
int plen = l,k = -1,j = 0;
n[0] = -1;
while (j <= plen - 1)
{
if (k == -1 || p[j] == p[k])
{
++k, ++j;
n[j] = k;
}
else
{
k = n[k];
}
}
}
int main(void)
{
cin >> l >> ss;
get_next(ss);
cout << l - n[l] << endl;
return 0;
}
四、总结
KMP算法是一种非常简洁而优美的算法,短短的几行代码看似容易,但其实理解起来还是有难度的。而当你理顺了背后的逻辑关系之后,这几行代码又仿佛水落石出,不证自明,这种“看山还是山”的感觉确实有趣。