定义
Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP算法”,常用于在一个文本串S内查找一个模式串P 的出现位置,这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表,故取这3人的姓氏命名此算法。
算法流程
假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置
- 如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符;
- 如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]。此举意味着失配时,模式串P相对于文本串S向右移动了j - next [j] 位。
字符串的前缀和后缀
如果字符串A和B,存在A=BS,其中S是任意的非空字符串,那就称B为A的前缀。例如,”Happy”的前缀包括{”H”, ”Ha”, ”Hap”, ”Happ”},我们把所有前缀组成的集合,称为字符串的前缀集合,可以发现所有的前缀都有第一个字符。同样可以定义后缀A=SB, 其中S是任意的非空字符串,那就称B为A的后缀,例如,”xiami”的后缀包括{”iami”, ”ami”, ”mi”, ”i”},然后把所有后缀组成的集合,称为字符串的后缀集合,可以发现所有的后缀都有最后一个字符。要注意的是,字符串本身并不是自己的后缀。
next数组
next 数组各值的含义:代表当前字符之前的字符串中(不包括当前字符),有多大长度的相同前缀后缀。例如如果next [j] = k,代表j之前的字符串中有最大长度为k 的相同前缀后缀
当模式串的后缀pj-k pj-k+1, ..., pj-1 跟文本串si-k si-k+1, ..., si-1匹配成功,但pj 跟si匹配失败时,因为next[j] = k,相当于在不包含pj的模式串中有最大长度为k的相同前缀后缀,即p0 p1 ...pk-1 = pj-k pj-k+1...pj-1,故令j = next[j]即j=k,使得模式串的前缀p0 p1, ..., pk-1对应着文本串 si-k si-k+1, ..., si-1,而后让pk 跟si 继续匹配,此时相当于从S串的i-j位开始匹配,si-k si-k+1, ..., si-1与p0 p1, ..., pk-1已经匹配成功,而后匹配pk和si,使得i可以不用回溯。如下图所示:
求next数组值的程序如下所示:
void getNext(char * p, int * next)
{
next[0] = -1;
int i = 0, j = -1;
while (i < strlen(p))
{
if (j == -1 || p[i] == p[j])
{
++i;
++j;
next[i] = j;
}
else
j = next[j];
}
}
KMP算法如下:
int KMP(char * t, char * p)
{
int i = 0;
int j = 0;
while (i < strlen(t) && j < strlen(p))
{
if (j == -1 || t[i] == p[j])
{
i++;
j++;
}
else
j = next[j];
}
if (j == strlen(p))
return i - j;
else
return -1;
}