KMP算法详解

最新推荐文章于 2021-10-03 16:20:23 发布

weixin_30556161

最新推荐文章于 2021-10-03 16:20:23 发布

阅读量52

点赞数

原文链接：http://www.cnblogs.com/aquariusgx/archive/2010/03/24/1693374.html

版权

一种改进的字符串匹配算法，由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现，因此称之为KMP算法。此算法可以在O(n+m)的时间数量级上完成串的模式匹配操作，其基本思想是：每当匹配过程中出现字符串比较不等时，不需回溯指针，而是利用已经得到的“部分匹配”结果将模式向右“滑动”尽可能远的一段距离，继续进行比较。

假如，A="abababaababacb"，B="ababacb"，我们来看看KMP是怎么工作的。我们用两个指针 i 和 j 分别表示，A[i-j+1…i] 与 B[1...j] 完全相等。也就是说，i 是不断增加的，随着 i 的增加 j 相应地变化，且 j 满足以 A[i] 结尾的长度为 j 的字符串正好匹配B串的前 j 个字符（j当然越大越好），现在需要检验 A[i+1] 和 B[j+1] 的关系。当 A[i+1]=B[j+1] 时，i 和 j 各加1；什么时候 j=m 了，我们就说 B 是 A 的子串（B串已经整完了），并且可以根据这时的i值算出匹配的位置。当A[i+1]<>B[j+1]，KMP的策略是调整 j 的位置（减小j值）使得 A[i-j+1...i] 与 B[1…j] 保持匹配且新的 B[j+1] 恰好与 A[i+1] 匹配（从而使得i和j能继续增加）。我们看一看当 i=j=5 时的情况。

     i = 1 2 3 4 5 6 7 8 9 ……
     A = a b a b a b a a b a b …
     B = a b a b a c b
     j = 1 2 3 4 5 6 7

此时，A[6]<>B[6]。这表明，此时 j 不能等于5了，我们要把 j 改成比它小的值 j'。j' 可能是多少呢？仔细想一下，我们发现，j' 必须要使得 B[1..j] 中的头j'个字母和末j'个字母完全相等（这样j变成了j'后才能继续保持i和j的性质）。这个 j' 当然要越大越好。在这里,B [1..5]="ababa"，头3个字母和末3个字母都是"aba"。而当新的j为3时，A[6] 恰好和 B[4] 相等。于是，i 变成了6，而 j 则变成了4：

     i = 1 2 3 4 5 6 7 8 9 ……
     A = a b a b a b a a b a b …
     B =        a b a b a c b
     j =        1 2 3 4 5 6 7

从上面的这个例子，我们可以看到，新的 j 可以取多少与 i 无关，只与B串有关。我们完全可以预处理出这样一个数组P[j]，表示当匹配到B数组的第 j 个字母而第 j+1 个字母不能匹配了时，新的j最大是多少。P[j]应该是所有满足 B[1..P[j]]=B[j-P[j]+1..j] 的最大值。
再后来，A[7]=B[5]，i和j又各增加1。这时，又出现了A[i+1]<>B[j+1]的情况：

     i = 1 2 3 4 5 6 7 8 9 ……
     A = a b a b a b a a b a b …
     B =       a b a b a c b
     j =       1 2 3 4 5 6 7

     由于 P[5]=3，因此新的 j=3：
     i = 1 2 3 4 5 6 7 8 9 ……
     A = a b a b a b a a b a b …
     B =            a b a b a c b
     j =             1 2 3 4 5 6 7

这时，新的 j=3 仍然不能满足 A[i+1]=B[j+1]，此时我们再次减小 j 值，将 j 再次更新为 P[3]：

     i = 1 2 3 4 5 6 7 8 9 ……
     A = a b a b a b a a b a b …
     B =                 a b a b a c b
     j =                 1 2 3 4 5 6 7

现在，i 还是7，j 已经变成1了。而此时 A[8] 居然仍然不等于 B[j+1]。这样，j 必须减小到 P[1]，即0：

     i = 1 2 3 4 5 6 7 8 9 ……
     A = a b a b a b a a b a b …
     B =                    a b a b a c b
     j =                 0 1 2 3 4 5 6 7

终于，A[8]=B[1]，i 变为8，j 为1。事实上，有可能j到了0仍然不能满足 A[i+1]=B[j+1]（比如A[8]="d"时）。因此，准确的说法是，当j=0了时，我们增加i值但忽略 j 直到出现A[i]=B[1] 为止。
这个过程的代码很短，我们在这里给出：

j:=0;
for i:=1 to n do
begin
       while (j>0) and (B[j+1]<>A[i]) do j:=P[j];
       if B[j+1]=A[i] then j:=j+1;
       if j=m then
       begin
          writeln('Pattern occurs with shift ',i-m);
          j:=P[j];
       end;
end;

最后的j:=P[j]是为了让程序继续做下去，因为我们有可能找到多处匹配。
这个程序或许比想像中的要简单，因为对于 i 值的不断增加，代码用的是for循环。因此，这个代码可以这样形象地理解：扫描字符串A，并更新可以匹配到B的什么位置。

附：

在KMP算法中，依据模式串的next函数值实现字串的滑动，若令next[j]=k；则next[j]表示当模式串中的Pj与主串中相应字符不相等时，令模式串的Pk与主串的相应字符进行比较。

求模式串的next函数:

void Get_next ( char *p, int next[ ] )   /*求模式串p的next函数值并存入数组next*/
{
	int i = 0,  j = -1, slen;
	slen = strlen(p);
	next[0] = -1;
	while ( i < slen )
 	{
		if (  j = -1 || p[i] == p[j] )	{	++i; ++j; next[i] = j;	}
		else	j = next[j];
	}
}

KMP模式匹配算法，设模式串第一个字符的下标为0：

int Index_KMP(char *s, char *p, int pos, in next[])
/*利用模式串p的next函数和，求p在主串中从第pos个字符开始的位置*/
/*若匹配成功，则返回模式串在主串中的位置（下标），否则返回-1*/
{
	int i = pos-1, j = -1, slen = strlen(s), plen = strlen(p);
	while (i < slen && i < plen)
	{
		if(j = -1 || s[i] == p[j])		{  ++i; ++j;	}
		else	j = next[j];
	}
	if(j > plen)		return i-plen;
	else		return -1;
}

正文内容转自：matrix67.com

参考：http://hi.baidu.com/jzyznoi/blog/item/5080fcd3beae19dea9ec9ab9.html

转载于:https://www.cnblogs.com/aquariusgx/archive/2010/03/24/1693374.html