KMP算法学习（详细解读&重点分析next[]在kmp中的原因）

最新推荐文章于 2023-03-16 22:40:31 发布

INVinci_BY

最新推荐文章于 2023-03-16 22:40:31 发布

阅读量622

点赞数 1

分类专栏：算法文章标签： c++ 算法

本文链接：https://blog.csdn.net/VinciB/article/details/115498918

版权

算法专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文详细介绍了KMP算法的工作原理，相较于BF算法的优势在于避免了冗余的字符比较，通过next数组实现更快的模式匹配。next数组记录了模式串中前缀和后缀的最大公共长度，用于在不匹配时快速定位。文中还探讨了next数组的优化，当遇到重复字符时，可以提前确定所有重复部分的next值，进一步提升效率。最后，提供了KMP算法的实现代码。

摘要由CSDN通过智能技术生成

在这里插入图片描述

在百度词条里找到了这个，感觉还是不是很好理解。
我们知道KMP是在BF算法上面改进而来的，BF通过一遍遍的对比，算法复杂度最大为（n*m）最小为（m+n），而KMP可以直接把算法复杂度控制在（m+n）。
同样是对比，KMP优势就在于不是一个个去对比，而是在对比之后能够直接跳转到对应的跳转位置。
假如我们现在需要的主串a为：abababababca （i控制）而模式串为b：abababca （j控制），在第一次对比不符合时，KMP可以选择i跳到第四个出现的a上，而不是第一个a后面的b。这样就能在主串大的时候
所以，我们应该如何去进行跳转？
在这里插入图片描述
因此我们需要一个next【】来得知跳转的位置。
这里的next【】就是在某个位置前字符串中他们前缀和后缀交集的最大长度。
这里解释一下前缀，比如abcde 它的前缀就有[a] [ab] [abc] [abcd] 后缀就有[bcde] [cde] [de] [e]
这里交集就是0即e +1位置上的next为0；

补充2021.4.8：
虽然知道了如何去写KMP但是还是不是很懂为什么next【】这样求后就是取值的确切点？
于是再去看了几组数据。
还是以下面图片的例子为准：
abababca ——>
在这里插入图片描述
此时，我们需要将以移动模式串（即移动j指针），我们已知道需要移动到二号位，此时有四个重合点，如何找到最适合移动的位置，这里就需要用前缀和后缀最大交集。
最大交集我们可以这样理解，在主串中倒着推的字符和模式串正着推的字符相交的最大点，于是就可以利用这个来找到我们需要移动的最适地方。

在这里插入图片描述
abababc为例
前缀有a ab aba abab ababa ababab
后缀有c bc abc babc ababc bababc
这里的交集就是 0 故c +1位置next为0；
ababab：
前缀：ababa abab aba ab a
后缀：babab abab bab ab b
交集：abab ab
最大长度：4
所以b +1位置上next为4；

接下来就是next的代码：

void getNext(char* p,int *next)
{
	next[0] = -1;
	int i = 0, j = -1;
	while (i < strlen(p))
	{
		if (j == -1 || p[i] == p[j])
		{
			i++;
			j++;
			next[i] = j;
		}
		else if (p[i] != p[j])
		{
			j = next[j];
		}
	}
}

KMP：

int KMP(char* t, char* p,int *next)
{
	int i = 0, j = 0;
	while (i < strlen(t) && j < strlen(p))
	{
		if (j == -1 || t[i] == p[j])
		{
			i++;
			j++;
		}
		else
		{
			j = next[j];
		}
	}
	if (j == strlen(p))
	{
		return i - j;

	}
	else {
		return -1;
	}
}

优化next[]数组：
如果我们遇到这样的情况：
在这里插入图片描述
是不是要一个个去移动，从第一个a一直移到最后。
这样是不是算法上的优越性就难以体现。

如果我们在遇见这种情况能够直接跳到第一个呢？
这样想，我们把aaaab标上序号，a1,a2,a3,a4,b
第一个对比，i=3（b） j=3（a3）
如果用之前的next则j会跳到2（a2），但是我们知道a3之前的都相等，相当于如果a1 ~ a4中只要有一个不满足的，那么前面都不会满足，所以我们就只要在a1 ~ a4的next都指向第一个a1即next[a1~a4]=0，当然a1在代码中之前先定义的next为-1，所以我们不需要再修改a1的。

理解了修改的意思，我们就只需要在next上面再加点东西就行了

void getNext(char* p,int *next)
{
	next[0] = -1;
	int i = 0, j = -1;
	while (i < strlen(p))
	{
		if (j == -1 || p[i] == p[j])
		{
			i++;
			j++;
			next[i] = (p[i] != p[j]) ? j : next[j];
		}
		else if (p[i] != p[j])
		{
			j = next[j];
		}
	}
}