题目描述
给出两个字符串
s
1
s_1
s1和
s
2
s_2
s2,若
s
1
s_1
s1的区间
[
l
,
r
]
[
l
,
r
]
[l, r][l,r]
[l,r][l,r] 子串与
s
2
s_2
s2完全相同,则称
s
2
s_2
s2在
s
1
s_1
s1中出现了,其出现位置为 l。
现在请你求出
s
2
s_2
s2 在
s
1
s_1
s1中所有出现的位置。
定义一个字符串 s 的
b
o
r
d
e
r
border
border 为 s 的一个非 s 本身的子串 t,满足 t 既是 s 的前缀,又是 s 的后缀。
对于
s
2
s_2
s2,你还需要求出对于其每个前缀
s
′
s'
s′的最长
b
o
r
d
e
r
border
border
t
′
t'
t′ 的长度。
输入格式
第一行为一个字符串,即为
s
1
s_1
s1。
第二行为一个字符串,即为
s
2
s_2
s2。
输出格式
首先输出若干行,每行一个整数,按从小到大的顺序输出
s
2
s_2
s2 在
s
1
s_1
s1中出现的位置。
最后一行输出
∣
s
2
∣
|s_2|
∣s2∣个整数,第 i 个整数表示
s
2
s_2
s2的长度为 i 的前缀的最长 border 长度。
输入输出样例
输入 #1
ABABABC
ABA
输出 #1
1
3
0 0 1
说明/提示
样例 1 解释
对于 s 2 s_2 s2长度为 3 的前缀 A B A ABA ABA,字符串 A 既是其后缀也是其前缀,且是最长的,因此最长 b o r d e r border border 长度为 1。
数据规模与约定
本题采用多测试点捆绑测试,共有 3 个子任务。
- S u b t a s k 1 ( 30 p o i n t s ) : ∣ s 1 ∣ ≤ 15 , ∣ s 2 ∣ ≤ 5 Subtask 1(30 points):|s 1∣≤15,∣s 2∣≤5 Subtask1(30points):∣s1∣≤15,∣s2∣≤5。
- S u b t a s k 2 ( 40 p o i n t s ) : ∣ s 1 ∣ ≤ 1 0 4 , ∣ s 2 ∣ ≤ 1 0 2 Subtask 2(40 points):|s 1∣≤10^4,∣s 2∣≤10^2 Subtask2(40points):∣s1∣≤104,∣s2∣≤102。
- S u b t a s k 3 ( 30 p o i n t s ) Subtask 3(30 points) Subtask3(30points):无特殊约定。
对于全部的测试点,保证 1 ≤ ∣ s 1 ∣ , ∣ s 2 ∣ ≤ 1 0 6 , s 1 , s 2 1 ≤∣s 1∣,∣s 2∣≤10^6,s_1, s_2 1≤∣s1∣,∣s2∣≤106,s1,s2 中均只含大写英文字母。
解题思路
KMP 的精髓在于,对于每次失配之后,我都不会从头重新开始枚举,而是根据我已经得知的数据,从某个特定的位置开始匹配;而对于模式串的每一位,都有唯一的“特定变化位置”,这个在失配之后的特定变化位置可以帮助我们利用已有的数据不用从头匹配,从而节约时间。
这篇KMP的讲稿不错:KMP字符串匹配.
代码
#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<iomanip>
#include<cmath>
using namespace std;
char a[2000000],b[2000000];
int l1,l2,j,p[2000000];
int main(){
scanf("%s%s",a+1,b+1);
l1=strlen(a+1),l2=strlen(b+1);
int j=0;
p[1]=0;
for(int i=2;i<=l2;i++)
{
while(j>0&&b[i]!=b[j+1])
j=p[j];
if(b[i]==b[j+1])
j++;
p[i]=j;
}
j=0;
for(int i=1;i<=l1;i++)
{
while(j>0&&a[i]!=b[j+1])
j=p[j];
if(a[i]==b[j+1])
j++;
if(j==l2)
{
printf("%d\n",i-l2+1);
j=p[j];
}
}
for(int i=1;i<=l2;i++)
printf("%d ",p[i]);
}