KMP详解

参考的话:这一篇就足够了

http://jakeboxer.com/blog/2009/12/13/the-knuth-morris-pratt-algorithm-in-my-own-words/

知乎上的解答

https://www.zhihu.com/question/21923021

多了next数组

一个观点:IT从业者还是不要惧怕English,因为你所需要的绝大多数资源都是英文的,这个世界的大多数真理还是在英文手中。而且,英文这东西,你多看看,也是能较为轻松的阅读的。

个人总结:

KMP算法做了个什么事情呢,就是在做字符串匹配时,如果,发现一些上一步的匹配结果可以为下一步的匹配作为参考的话,那么利用上一步的匹配结果,就能够使得匹配的时间缩短。而KMP就是在此基础上,设计了一个合理的逻辑来利用上一步的匹配结果。这其中很重的一个设计点是PMT, Partial Match Table, 我翻译为部分匹配表,即在匹配的过程中,不仅是在做字符串全部的匹配,也在利用部分匹配的结果,而部分匹配表就是为了利用部分匹配的结果,也就是之前说的上一步的匹配结果。而部分匹配表存的是什么呢,那就是最佳前缀和最佳后缀的交集中最长的字符串的长度。

next数组只是为了更好的使用PMT的一个设计,它本质上就是PMT的一个移动。

#include <iostream>
#include <cstdio>
#include <cstring>

using namespace std;


// 这个是算next数组的方法,有机会再实现一个算PMT的方法
void cal_next(char *ptr, int *next)
{
	next[0] = -1;
	int i = 0, j = -1;

	while (i < strlen(ptr))
	{
		if (j == -1 || ptr[i] == ptr[j])
		{
			++i;
			++j;
			next[i] = j;
		}	
		else
			j = next[j];
	}
}

/* example
 *
 *	bacbababababca
 *		abababca
 *  target 的index前移2个位置和 ptr后移两个位置等价
 */
int kmp(char *target, char *ptr, int *next) {
	int i = 0;
	int j = 0;
	
	int tlen = strlen(target);
	int slen = strlen(ptr);

// 下面这条语句执行会出现只循环一次的情况,不知道为什么,待高手指教
// 而且,不要指望编译器会将strlen(target)这个计算结果hold住,还是自己开空间存储是最保险的	
//	while( i < strlen(target) && j < strlen(ptr) ) {
	while( i < tlen && j < slen ) {
		if ( j == -1 || target[i] == ptr[j]) {
			++i;
			++j;
		}
		else {
			j = next[j];
		}
	}

	if ( j == strlen(ptr)) {
		return i - j;
	}
	else {
		return -1;
	}
}



int main() {

	char ptr[] = "abababca";
	char target[] = "bacbababababca";
	int length = 8;
	int *next = new int[length];
	cal_next(ptr, next);
	
	int index = kmp(target, ptr, next);
	cout<<index<<endl;	
}

 

我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值