【洛谷 P3375】【KMP】KMP字符串匹配

最新推荐文章于 2023-01-17 22:11:58 发布

。十二。

最新推荐文章于 2023-01-17 22:11:58 发布

阅读量636

点赞数

分类专栏： KMP 洛谷

本文链接：https://blog.csdn.net/kejin2019/article/details/109310572

版权

洛谷同时被 2 个专栏收录

102 篇文章 0 订阅

订阅专栏

KMP

6 篇文章 0 订阅

订阅专栏

题目描述
给出两个字符串 $s_1$ 和 $s_2$ ，若 $s_1$ 的区间 $[l, r] [l, r]$ 子串与 $s_2$ 完全相同，则称 $s_2$ 在 $s_1$ 中出现了，其出现位置为 l。
现在请你求出 $s_2$ 在 $s_1$ 中所有出现的位置。
定义一个字符串 s 的 $b o r d e r$ 为 s 的一个非 s 本身的子串 t，满足 t 既是 s 的前缀，又是 s 的后缀。
对于 $s_2$ ，你还需要求出对于其每个前缀 $s^{'}$ 的最长 $b o r d e r$ $t^{'}$ 的长度。

输入格式
第一行为一个字符串，即为 $s_1$ 。
第二行为一个字符串，即为 $s_2$ 。

输出格式
首先输出若干行，每行一个整数，按从小到大的顺序输出 $s_2$ 在 $s_1$ 中出现的位置。
最后一行输出 $s_2|$ 个整数，第 i 个整数表示 $s_2$ 的长度为 i 的前缀的最长 border 长度。

输入输出样例

输入 #1
ABABABC
ABA

输出 #1
1
3
0 0 1

说明/提示
样例 1 解释
在这里插入图片描述

对于 $s_2$ 长度为 3 的前缀 $A B A$ ，字符串 A 既是其后缀也是其前缀，且是最长的，因此最长 $b o r d e r$ 长度为 1。

数据规模与约定

本题采用多测试点捆绑测试，共有 3 个子任务。

$S u b t a s k 1 （ 30 p o i n t s ）： ∣ s 1 ∣ \leq 15 ， ∣ s 2 ∣ \leq 5$ 。
$Subtask 2（40 points）：|s 1∣≤10^4，∣s 2∣≤10^2$ 。
$S u b t a s k 3 （ 30 p o i n t s ）$ ：无特殊约定。

对于全部的测试点，保证 $1 ≤∣s 1∣,∣s 2∣≤10^6，s_1, s_2$ 中均只含大写英文字母。

解题思路
KMP 的精髓在于，对于每次失配之后，我都不会从头重新开始枚举，而是根据我已经得知的数据，从某个特定的位置开始匹配；而对于模式串的每一位，都有唯一的“特定变化位置”，这个在失配之后的特定变化位置可以帮助我们利用已有的数据不用从头匹配，从而节约时间。

这篇KMP的讲稿不错：KMP字符串匹配.

代码

#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<iomanip>
#include<cmath>
using namespace std;
char a[2000000],b[2000000];
int l1,l2,j,p[2000000];
int main(){
	scanf("%s%s",a+1,b+1);
	l1=strlen(a+1),l2=strlen(b+1);
	int j=0;
	p[1]=0; 
	for(int i=2;i<=l2;i++)
	{
		while(j>0&&b[i]!=b[j+1])
			j=p[j];
		if(b[i]==b[j+1])
			j++;
		p[i]=j;
	}
	j=0;
	for(int i=1;i<=l1;i++)
	{
		while(j>0&&a[i]!=b[j+1])
			j=p[j];
		if(a[i]==b[j+1])
			j++;
		if(j==l2)
		{
			printf("%d\n",i-l2+1);
			j=p[j];
		}
	}
	for(int i=1;i<=l2;i++)
		printf("%d ",p[i]);
}