hihoCoder #1015 : KMP算法

时间限制: 1000ms
单点时限: 1000ms
内存限制: 256MB

描述

小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在编程的学习道路上一同前进。

这一天,他们遇到了一只河蟹,于是河蟹就向小Hi和小Ho提出了那个经典的问题:“小Hi和小Ho,你们能不能够判断一段文字(原串)里面是不是存在那么一些……特殊……的文字(模式串)?

小Hi和小Ho仔细思考了一下,觉得只能想到很简单的做法,但是又觉得既然河蟹先生这么说了,就肯定不会这么容易的让他们回答了,于是他们只能说道:“抱歉,河蟹先生,我们只能想到时间复杂度为(文本长度 * 特殊文字总长度)的方法,即对于每个模式串分开判断,然后依次枚举起始位置并检查是否能够匹配,但是这不是您想要的方法是吧?”

河蟹点了点头,说道:”看来你们的水平还有待提高,这样吧,如果我说只有一个特殊文字,你能不能做到呢?“

小Ho这时候还有点晕晕乎乎的,但是小Hi很快开口道:”我知道!这就是一个很经典的模式匹配问题!可以使用KMP算法进行求解!“

河蟹满意的点了点头,对小Hi说道:”既然你知道就好办了,你去把小Ho教会,下周我有重要的任务交给你们!“

”保证完成任务!”小Hi点头道。

提示一:KMP的思路

提示二:NEXT数组的使用

提示三:如何求解NEXT数组

输入

第一行一个整数N,表示测试数据组数。

接下来的N*2行,每两行表示一个测试数据。在每一个测试数据中,第一行为模式串,由不超过10^4个大写字母组成,第二行为原串,由不超过10^6个大写字母组成。

其中N<=20

输出

对于每一个测试数据,按照它们在输入中出现的顺序输出一行Ans,表示模式串在原串中出现的次数。

样例输入
5
HA
HAHAHA
WQN
WQN
ADA
ADADADA
BABABB
BABABABABABABABABB
DAD
ADDAADAADDAAADAAD
样例输出
3
1
3
1
0

题目中给的提示看着有点晕,但是其实KMP的思路其实非常直观。朴素的算法是逐个判断,将模式串与原串比较,若不匹配,就将模式串右移一位,再从头比较。但是这当中有些比较是根本没必要的。假设要在一段文本中寻找字符串 abcdab ,当在某一位置发现前四个字符都匹配,第五个字符不匹配时,即 abcdab ,这时如果再往右移1位,肯定不会匹配,同样如果往右移2位或3位也肯定不匹配,只有右移4位才有可能匹配。所以在这种情况,应该将模式串直接往右移4位,中间的移1、2、3位的情况可以直接略过了。

所以可以先根据模式串提前计算好每次有几个字符匹配时,下一次应该右移几位。具体来说,提示二中的NEXT数组就是来记录这些右移值的,当然NEXT并不是直接记录右移值。对于NEXT[k],它的值表示一个含有模式串前k个字符的子串中,子串的前缀和后缀最多可以有多少个字符匹配。更准确的定义可以看提示二。这样在某一次匹配中,当发现有q个字符匹配时,下一次的右移值就是 q - NEXT[q] 。

接下来的问题就是如何求解NEXT数组了。如果再像小Ho那样用朴素算法,还是会被小Hi深深鄙视的。。求解 NEXT[k] 的过程其实已经为之后的求解保留了一些信息。下面用例子来说明。假如对于字符串 bababc,已经求解出 NEXT[4]=2 (下标从1开始),这里原串是 baba,模式串是 ba。这时继续求解 NEXT[5] ,我们在原串和模式串后面都添加一个字符,原串应该添加b,模式串刚好也是b,所以NEXT[5]=3。再继续添加,原串添加c,模式串添加的是a,不一样了,于是令 q=NEXT[q],这里q是3,就是上一步计算的NEXT[5]的值,得到的结果是 q=NEXT[3]=1,这意味着模式串只有前面一个字符 b 了。然而字符b和原串的最后一个字符c还是不等,于是再令 q=NEXT[1]=0,结果是 NEXT[6]=0。这个求解NEXT数组过程中,其实就已经是在用KMP的思路了,所求NEXT的代码与KMP的代码很相似。算出NEXT[k]后,就在原串和模式串后再添加一个字符来计算NEXT[k+1],如果添加的这再从个字符不等,就把模式串右移NEXT[k]位,而不是朴素算法中的一位。

在实际代码中,由于字符串下标总是从0开始的,所以这里特别需要注意。假如在某次匹配中有q个字符匹配,那么它实际上对应的应该是 next[q-1] 的值。

#include <iostream>
#include <string>
using namespace std;

int main()
{
	int N;
	cin >> N;
	string par, ori;
	for (int i = 0; i < N; ++i)
	{
		cin >> par >> ori;
		int lenPar = par.length();
		int lenOri = ori.length();

		// compute next array
		int* next = new int [lenPar];
		next[0] = 0;
		int q = 0;
		for (int k = 1; k < lenPar; ++k)
		{
			while (q > 0 && par[k] != par[q] )
				q = next[q - 1];
			if (par[k] == par[q])
				++q;
			next[k] = q;
		}

		// find par in ori
		int ans = 0;
		q = 0;
		for (int k = 0; k < lenOri; ++k )
		{
			while (q > 0 && ori[k] != par[q] )
				q = next[q - 1];
			if (ori[k] == par[q])
				++q;
			if (q == lenPar)
			{
				++ans;
				q = next[q - 1];
			}
		}
		cout << ans << endl;
		delete [] next;
	}
	return 0;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值