KMP算法的理解+板子

对kmp算法的理解中,很重要的一点就是next数组。

很多人不理解next数组的含义,是因为它同时具有两个意思,而且这两个意思在不同的环境下不同。

现在给你两个字符串:

一个是文本串 text

一个是模板串 pattern

然后定义两个指针,指针i 指向文本串。指针 j 指向模板串。

现在我们要找模板串在文本串中第一次出现的位置。

那么直接从文本串的第一个字符和模板串的第一个字符开始匹配。(i=text[0] , j=pattern[0])

如果i,j匹配成功(即 text[i] == pattern[j] ) 

那么i,j都往右移动。

如果i , j 匹配不成功,那么我们希望 j能重新跳到模板串的某一个位置,重新开始匹配

(这里不能让i跳,因为 i的变化必须保持是线性的)

如果我们能让 j 具备这样的功能的话,那么匹配字符串将是线性复杂度。

那么我们就提出了一个next数组,希望它能做到这件事。

不过要理解kmp

我们要搞清楚,next数组有什么含义?

  • 如果i指针指向的字符 和 j指针指向的字符匹配失败,j指针应该去的位置(这里指的是j指针应该回到模板串的哪个下标)
  • next[k] 表示在模板串中从0开始到下标为k,也就是[0,k]的字符串中,最长相等前后缀的长度。

为什么这样说?

其实,我们一开始定义next数组的时候,单纯的希望它有一个功能,就是如果文本串和模板串发生不匹配,那么指针j 去往的地方是 next[j-1] 。

(因为我们现在正在匹配 j ,说明j-1 是已经匹配成功了的,所以我们需要直接返回上一个匹配成功的位置)

然后我们在求解 next数组的时候发现:

next[k] 的值和  “在模板串中从0开始到下标为k的字符串中,最长相等前后缀“ 的长度相等。

说明我们就可以通过这个特点来求解next数组。

什么意思呢? 假设我们现在已经求好了next数组的值,那么我们是不是可以根据next数组的含义(如果i指针指向的字符 和 j指针指向的字符匹配失败,j指针应该去的位置

来写出kmp主函数?

int kmp(string text, string pattern) {//文本串,模板串

	//分别表示文本串和模板串的长度
	int tlen = text.size();
	int plen = pattern.size(); 


	vector<int > next=get_next(pattern);//next数组

	//假设我们已经得到了next数组,由于next数组的一个含义是,当匹配失败,模板串指针前往的位置
	//所以我们可以写出

	int i=0, j = 0;
	while(i<tlen) { //遍历一遍文本串,以线性的时间复杂度求出匹配位置
		if (pattern[j] == text[i]) {//如果匹配了,那么j,i都往右边移动
			j++;
            i++;
			if (j == plen) { //如果模板串全部都匹配上了
				return i - j+1;//直接返回第一次匹配成功的下标
			}
		}
		else {//如果没匹配上
			if (j > 0) { //如果j大于0
				j = next[j - 1]; //j前往应该去的地方
			}
//否则,如果j等于0,那么它无处可以去。
		   else {
                i++;
            }
		}
	}

	return -1; //如果扫完了一遍文本串还没匹配,直接返回-1
}

很好,根据next的数组的第一个含义我们能求出kmp函数。

但是我们怎么求next数组? 只需要将next数组的性质结合起来即可。

在求next的数组中需要转变两种观点:

当不匹配的时候,把pattern[0,i]当作文本串、把patter[0,j] 看作模板串,就按照上面kmp的步骤来即可。当不匹配,直接让j=next[j-1];

当i,j匹配, 那么说明 [0,j-1]肯定是已经匹配上了的(前提是j>0),又[0,j-1]的长度是 j

现在j也匹配上了,那么最长相等前后缀长度不就 j+1 吗。

(也可以理解成如果 i,j 匹配上了,那么next[i]=next[i-1]+1、 因为匹配成功了一个新字符,那么最长公共前后缀长度+1)

所以啊,如果我们这样想的话,那么next数组也求完了。


vector<int > get_next(string pattern) { //求next数组,并返回next数组

	int plen = pattern.size();
	vector<int> next(plen);
	int i = 1, j = 0; //此时我们将[0,i]当作文本串,将[0,j]的串当作模板串
	

	for (int i = 1; i < plen; i++) {
		while (j > 0 and pattern[i] != pattern[j]) { //如果不匹配,那么j就退到应该去的,直到退到0,或者退到二者匹配
			j = next[j-1];
		}
		

		if (pattern[i] == pattern[j]) { //这里的话,next就代表[0,i]区间的最长公共前后缀
			next[i] = j+1;
            j++;
		}
	}
	return next;

}

 然后,把二者合起来就是完整的板子了。

好的,那么我们来做一下真正的板子题?

P3375 【模板】KMP - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)icon-default.png?t=N7T8https://www.luogu.com.cn/problem/P3375

#include<iostream>
#include<cstdio>
#include<cmath>
#include<string>
#include<cstring>
#include<algorithm>
#include<vector>
#include<cctype>
#include<map>
#include<set>
#include<queue>
#include<numeric>
#include<iomanip>
#include<stack>
#include<list>
using namespace std;
const int N = 1e6 + 7;
typedef long long ll;


vector<int > get_next(string pattern) { //求next数组,并返回next数组

	int plen = pattern.size();
	vector<int> next(plen);
	int i = 1, j = 0; //此时我们将[0,i]当作文本串,将[0,j]的串当作模板串
	

	for (int i = 1; i < plen; i++) {
		while (j > 0 and pattern[i] != pattern[j]) {
			j = next[j-1];
		}
		

		if (pattern[i] == pattern[j]) { //这里的话,next就代表[0,i]区间的最长公共前后缀
			next[i] = j+1;
			j++;
		}
	}
	return next;

}



void kmp(string text, string pattern) {//文本串,模板串

	//分别表示文本串和模板串的长度
	int tlen = text.size();
	int plen = pattern.size(); 


	vector<int > next=get_next(pattern);//next数组

	//假设我们已经得到了next数组,由于next数组的一个含义是,当匹配失败,模板串指针前往的位置
	//所以我们可以写出

	int  i=0,j = 0;
	while(i<tlen){

		if (pattern[j] == text[i]) {
			j++;
			i++;
			if (j == plen) { //如果模板串全部都匹配上了
				cout<<(i - j+1)<<'\n';//输出匹配成功的下标
				j = next[j-1];
				
			}
		}

		else {
			if (j > 0) {
				j = next[j - 1];
			}
			else {
				i++;
			}
		}
	}

	for (int i = 0; i < next.size(); i++)cout << next[i] << ' ';

	return ; //如果扫完了一遍文本串还没匹配,直接返回
}


int main() {
	string text, pattern;
	cin >> text >> pattern;
	kmp(text, pattern);
	
}

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

louisdlee.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值