第一章 基础算法 KMP算法

1. 算法思路

KMP算法,很多同学一开始学起来会比较头疼,其实这个算法的想法还是很直观的,也是比较容易理解的。
KMP算法主要是为了实现字符串匹配的功能,也是就给出一个短的字符串和一个长的字符串,使用KMP算法看看长的字符串中是否出现过短的字符串(或者出现过几次、在哪里出现的)。
我们结合一个具体例子,首先从暴力做法开始思考。

p = "ababac"
s = "xababawababc"

暴力的做法是这样的,我们首先将两个字符串对齐,从第一个字母开始比较

xababawababc
ababac

可以看到,第一个字母,二者是不匹配的。于是我们将短的字符串向后移动一位继续尝试

xababawababc
  ababac

可以看到第一位匹配上了,后面也能继续匹配上直到

xababawababc
  ababac

最后一步,没有匹配上,唉,差一点,没事,生活中很多事情都是差一点就要成功了,可是没有成功,我们继续将p串后移一位,继续从第一个字符开始匹配。就这样一步一步的匹配我们最终就可以找到s串中p串的位置。虽然找到了最终结果,可是对于刚才差一点就要成功的遗憾我们还是迟迟不能忘怀,那么我们刚才的努力难道真的白费了吗?
这就轮到我们的kmp算法登场了。我们发现,我们匹配上了的部分ababa的前三个字母aba和后三个字母aba是相同的,只需要让aba挪到后三个aba的位置上,此时前三个字母一定是匹配的,因为前三个字母跟后三个字母相同,后三个字母跟长串的对应三个字母相同,所以前三个字母一定跟长串的对应三个字母相同。这样我们就不用从第一个字符开始进行匹配了。
我们希望找到的这种前几个字母和后几个字母的长度越长越好,这样我们需要进行匹配的数量就变少了。我们将前几个字母称为前缀,后几个字母称为后缀,因此对于短串来说,我们需要找到每个位置上的最长相同前缀和后缀长度, 并存储在一个next数组中,这样一但某个位置不能匹配,例如上例中的c处不能匹配,我们就能通过next数组,找到前缀ada后面一个字符,继续进行匹配。

2. 例题

KMP字符串

给定一个模式串 S,以及一个模板串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串 P 在模式串 S 中多次作为子串出现。
求出模板串 P 在模式串 S 中所有出现的位置的起始下标。

输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。

输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。

数据范围
1≤N≤10^5
1≤M≤10^6
输入样例:
3
aba
5
ababa
输出样例:
0 2
#include<iostream>
using namespace std;
const int N = 1e6  + 10;
char s[N],p[N];
int ne[N],n,m;

int main()
{
	//从1开始读取字符串,比较方便后续处理
	cin >> n >> p + 1 >> m >> s + 1;
	//这是我们处理next数组的方法,注意是j + 1 参与比较
	//i是从2开始,因为ne[0]、ne[1]都等于0无需处理
	//举个小例子让大家看的更直观
	// abcabc
	// i = 2,j == 0 直接进入if判断,p[i] == b != p[j + 1] == a,ne[2] = 0
	// i = 3,j == 0 进入if判断得到ne[3] = 0
	// i = 4,j == 0,直接进入if判断,相等则ne[4] = 1
	// 就这样依次的进行处理
	for(int i = 2, j = 0; i <= n; i ++)
	{
		while(j && p[i] != p[j + 1]) j = ne[j];
		if(p[i] == p[j + 1]) j ++;
		ne[i] = j;
	}
	for(int i = 1, j = 0; i <= m; i ++)
	{
		// 只要j!=0也就是没退回到开头,并且当前这个j+1不能匹配,我们就通过ne中记录的之前的努力,将j尽量少的移动
		while(j && s[i] != p[j + 1]) j = ne[j];
		//如果能匹配j ++
		if(s[i] == p[j + 1]) j ++;
		if(j == n)
		{	
			cout << i - n << " ";
			//这里根据题目要求,继续重新开始寻找
			j = ne[j];
		}
	}
	return 0;
}

3. 时间复杂度分析

看起来是双重循环,但实际上是 O ( n ) O(n) O(n)
j++最多加m次,又因为j要大于等于0,所以j = ne[j]最多执行m次,也就是while循环最多执行m次。
有ne的定义出发,ne[j]一定小于j,所以j = ne[j]一定可以让j变小

参考资料

Acwing

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值