KMP算法理解

最新推荐文章于 2022-01-19 17:10:51 发布

hustu200715998

最新推荐文章于 2022-01-19 17:10:51 发布

阅读量527

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/hustu200715998/article/details/8678028

版权

算法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

在编程中经常有用到字符串匹配的地方，最平凡的解法，自然是利用双重循环,解法时间复杂度O(nm)，而KMP算法则只需要O(n)的运行和O(m)的预处理时间。

平凡的算法当主串和子串匹配到一半失败时，两个指针都必须回溯，而KMP算法则巧妙地消除了主串指针的回溯。

假设要在主串“ACACACBAD"中”匹配子串“ACAA”：

当比较到第四个字符时失败：

ACACACAAD 主串mstr

ACAA 子串pstr

此时平凡的算法应该将两个指针回溯，比较主串的第二个字母C和子串的第一个字母A，如下所示：

ACACACAAD

ACAA

显然是不相等的，而主串的第二个字母C已经与子串的第二个字母C匹配过了，所以只要拿到子串ACAA，我们就可以根据子串计算出那些位移是不符合要求的,那些位移是可能符合要求的。

换言之，可以通过对子串的预处理，得到所有合法位移的可能，并保存在一个数组中！

这点并不难以理解，不过预处理得到这个数组的方法却有些难以理解。

假设上面这个数组是m，我们来看ACAA这个子串，

1、显而易见的是m[0]=0,这个数组的下标等于已经匹配成功的个数，成功0个，自然接下来子串的第1个字符（下标为0）和主串的第2个字符（下标为1）来比较。

2、先考察m[3]，成功3个，第4个失败，本来应该子串向前位移1个位置，像上面哪样比较mstr[1]和pstr[0]，我们注意到主串和子串之前的字符都是ACA，显然mstr[1]=C和 pstr[0]=A是不相等的，而位移2个位置是有可能的，因为pstr[0]pstr[1] != pstr[1]pstr[2]但pstr[0] == pstr[2],因此m[3]=1.

3、考察m[1]，由于之前匹配的长度等于0，且str[0]!=str[1]所以m[1]=0;

4、考察m[2]，由于之前匹配的长度等于0，且str[0]==str[2],所以m[2]=1；

C++代码如下：

int* Prefix(const char* str,int length,int *m)
{
	int counts=0;
	m[0]=0;
	for(int i=1;i<length;i++)
	{
		while(counts>0&&str[counts]!=str[i])
			counts=m[counts];
		if(str[counts]==str[i])
			counts++;
		m[i]=counts;
	}
	return m;
}
void kmp(const char* mStr,int mLength,const char* pStr,int pLength)
{
	int matchCounts=0;
	int *m=new int[pLength];
	Prefix(pStr,pLength,m);
	for(int i=0;i<mLength;i++)
	{
		while(matchCounts>0&&pStr[matchCounts]!=mStr[i])
			matchCounts=m[matchCounts];
		if(pStr[matchCounts]==mStr[i])
			matchCounts++;
		if(matchCounts==pLength)
		{
			cout<<"模式串出现在主串，开始于下标："<<i-pLength+1<<endl;
			matchCounts=m[matchCounts-1];
		}  
	}
}