浙大数据结构:KMP 串的模式匹配 (25 分)

KMP 串的模式匹配 (25 分)

给定两个由英文字母组成的字符串 String 和 Pattern,要求找到 Pattern 在 String 中第一次出现的位置,并将此位置后的 String 的子串输出。如果找不到,则输出“Not Found”。

本题旨在测试各种不同的匹配算法在各种数据情况下的表现。各组测试数据特点如下:

数据0:小规模字符串,测试基本正确性;
数据1:随机数据,String 长度为 10​5​​ ,Pattern 长度为 10;
数据2:随机数据,String 长度为 10​5​​ ,Pattern 长度为 10​2​​ ;
数据3:随机数据,String 长度为 10​5​​ ,Pattern 长度为 10​3​​ ;
数据4:随机数据,String 长度为 10​5​​ ,Pattern 长度为 10​4​ ;
数据5:String 长度为 10​6​​ ,Pattern 长度为 10​5​​ ;测试尾字符不匹配的情形;
数据6:String 长度为 10​6​​ ,Pattern 长度为 105​​ ;测试首字符不匹配的情形。
输入格式:
输入第一行给出 String,为由英文字母组成的、长度不超过 10
​6
​​ 的字符串。第二行给出一个正整数 N(≤10),为待匹配的模式串的个数。随后 N 行,每行给出一个 Pattern,为由英文字母组成的、长度不超过 10
​5
​​ 的字符串。每个字符串都非空,以回车结束。

输出格式:
对每个 Pattern,按照题面要求输出匹配结果。

输入样例:
abcabcabcabcacabxy
3
abcabcacab
cabcabcd
abcabcabcabcacabxyz
输出样例:
abcabcacabxy
Not Found
Not Found

代码

简单版本的KMP,建立数组的方法过于简单,导致超时

#include<iostream>
#include<cstring>
#define Maxsize 1000001
#define PMax 100001
typedef char pattern[PMax];
typedef int MatchArr[PMax];
using namespace std;
/*简单版本的建立match数组*/
int* BuildMatch(pattern pat) {
	int len = strlen(pat);
	int* Match = new int[len];
	Match[0] = -1;
	int i, j;
	for ( j = 1; j < len;j++) {
		for (i = 0; i < j; i++) {
			if (pat[i] != pat[j - i]) {
				Match[j] = i-1;//1个匹配记为0
				break;
			}
		}
	}
	return Match;
}


int Judge(char* text, pattern pat) {
	int* Match=BuildMatch(pat);
	int t, p;
	t = p = 0;
	int res = -1;
	int patlen = strlen(pat);
	int textlen = strlen(text);
	if (patlen > textlen)return -1;
	while (t <textlen) {
		if (text[t] == pat[p]) {
			p++;
			t++;
		}
		else {
			if (p>0)
				p = Match[p - 1] + 1;
			else if (p == 0) {
				t++;
			}
		}
		if (p == patlen) {
			res = t-patlen;
			break;
		}
	}
	return res;
}


int main() {
	char* Text = new char[Maxsize];
	pattern Pat;
	int N,res;
	cin >> Text;
	cin >> N;
	for (int i = 0; i < N; i++) {
		cin >> Pat;
		res=Judge(Text, Pat);
		if (res == -1) {
			cout << "Not Found\n";
		}
		else {
			printf("%s\n", Text + res);
		}
	}
	delete[]Text;
	return 0;
}

测试结果

在这里插入图片描述

代码2

#include<iostream>
#include<cstring>
#define Maxsize 1000001
#define PMax 100001
typedef char pattern[PMax];
typedef int MatchArr[PMax];
using namespace std;
/*更好的版本*/
int* BuildMatch2(pattern pat) {
	int i, j;
	int patlen = strlen(pat);
	int* Match = new int[patlen];
	Match[0] = -1;
	for (j = 1; j < patlen; j++) {
		i = Match[j - 1];
		while (i>=0&&pat[j]!=pat[i+1]) {
			i = Match[i];
		}
		if (pat[i + 1] == pat[j]) {
			Match[j] = i + 1;
		}
		else
			Match[j] = -1;
	}
}


int Judge(char* text, pattern pat) {
	int* Match=BuildMatch2(pat);
	int t, p;
	t = p = 0;
	int res = -1;
	int patlen = strlen(pat);
	int textlen = strlen(text);
	if (patlen > textlen)return -1;
	while (t <textlen) {
		if (text[t] == pat[p]) {
			p++;
			t++;
		}
		else {
			if (p>0)
				p = Match[p - 1] + 1;
			else if (p == 0) {
				t++;
			}
		}
		if (p == patlen) {
			res = t-patlen;
			break;
		}
		
	}
	return res;
}


int main() {
	char* Text = new char[Maxsize];
	pattern Pat;
	int N,res;
	cin >> Text;
	cin >> N;
	for (int i = 0; i < N; i++) {
		cin >> Pat;
		res=Judge(Text, Pat);
		if (res == -1) {
			cout << "Not Found\n";
		}
		else {
			printf("%s\n", Text + res);
		}
	}
	delete[]Text;
	return 0;
}

测试结果

在这里插入图片描述

总结

主要是重新归类了一下关于下标的问题,以后所有的关于下标的问题都从下面这个公式考虑。要求是:起始下标,结尾下标,包括下标在内的元素个数N,知道任意两个可以求出第三个,并且排列是连续的,如果有任何变形都基于此(比如不算末尾或者N少了一个)
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值