KMP算法

mwill

于 2014-07-14 20:10:00 发布

阅读量367

点赞数

分类专栏：算法文章标签： KMP 字符串匹配优化

本文链接：https://blog.csdn.net/mwill/article/details/37761479

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

参考1：http://blog.csdn.net/zhongjling/article/details/8887890

参考2：http://blog.csdn.net/adrian169/article/details/8932697

优化：http://blog.csdn.net/joylnwang/article/details/6778316

设待匹配字符串为：

s = s₁s₂…s_n

模式字符串为：

p = p₁p₂…p_m

KMP算法的思想在于当匹配到s_j != p_i时，由于p的前i-1个字符已经匹配过了，即已经有

p₁…p_i-1 = s_j-(i-1)…s_j-1

我们可以利用这些信息来确定应该从哪里开始（而不是p的第一个字符p₁）重新匹配，从而尽量减少匹配的次数。

那么，怎么从哪里开始重新匹配呢？这时就需要用到next函数，这是KMP算法的关键，实际上就是在拿p去跟s匹配时，先让p自己跟自己进行匹配，以此来确定当s_j != p_i时，应该回退到p的第几个字符来重新匹配。

next(i) = k，i = 1,...,m，k = 0,...,i-1，表示p_i与待比较的字符s_j不相等时，应该把p回退到p_k，让p_k与s_j进行比较。

有了next函数后，字符串的匹配过程可描述如下(其中s[j]=s_j，p[i]=p_i)：

j = 1, i = 1;
while(j <= n && i <= m):
	if(i == 0 || s[j] == p[i]):
		i++;
		j++;
	else:
		i = next(i);
if(i == m):
	匹配成功
else:
	匹配失败

现在的问题是，next函数怎么求？

求next函数的过程其实也是一个字符串匹配过程，是p自己跟自己匹配，过程描述如下(其中p[i-1]=p_i-1，p[k]=p_k)：

next(1) = 0;
for i = 2 to m:
	k = next(i-1);
	while(true):
		if(k == 0):
			next(i) = 1; break;
		if(p[i-1] = p[k]):
			next(i) = k + 1; break;
		else:
			k = next(k);

至此，kmp算法就完成了。

可是，如果再想多一步，当匹配到s_j != p_i时，会回退到p_next(i)，然后比较s_j 和p_next(i)，由于我们已经知道s_j != p_i，那么如果p_i=p_next(i)，则必能推出s_j !=p_next(i)，这样就不需要比较s_j 和p_next(i)了，所以，就有了kmp的优化算法（开头的链接），其实质就是在求出next函数后，把p_i和p_next(i)再做一次比较，从而得到一个新的next函数。