先上题目吧
给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模式串 P 在字符串 S 中多次作为子串出现。
求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。
数据范围
1≤N≤10^5
1≤M≤10^6
Code:
#include<iostream>
using namespace std;
const int N=1e6+10;
const int M=1e5+10;
char s[N],p[M];
int ne[M];
int main(){
int m,n;
cin.tie(0);
ios::sync_with_stdio(false);
cin>>n>>p+1>>m>>s+1;
for(int i=2,j=0;i<=n;++i){
while(j&&p[i]!=p[j+1])j=ne[j];
if(p[i]==p[j+1])j++;
ne[i]=j;//为什么ne[i]=j来更新next数组?因为从while循环出来,只有j==0或者p[i]==p[j+1],退无可
//退是next[i]=j=0,还可以继续匹配的话j+1,为什么用if(p[i]==p[j+1])j++;语句因为每次for循环只匹配一次
}
for(int i=1,j=0;i<=m;++i){
while(j&&s[i]!=p[j+1])j=ne[j];
if(s[i]==p[j+1])j++;
if(j==n){
cout<<i-j<<" ";
j=ne[j];
}
}
return 0;
}
next[i] = j数组的真正含义是找出模式串中p[1 ~ i]的最长相同真子前后缀,注意:这里的前缀p[1 ~ j]和后缀p[i - j + 1 ~ i]必须是p[1 ~ i]的真子串,即j < i;(其实理解成最长相同真子前缀的长度在这个代码模板中也可以,因为这里长度跟下标是一致的)
模式串用p[j+1]去匹配,便于匹配失败后,好由之前p[j]的成功匹配,根据next[j]找最长前缀的最后位置的下标(或者说长度);
求next数组过程与KMP过程差不多,只不过是用模式串匹配模式串,因为next[1]为0,故下标从2开始匹配
(重点,想了很久才明白)KMP算法的时间复杂度为什么是O(n):
if(s[i]==p[j+1])j++;//这条语句在for循环中最多执行n次,故在for循环后j<=n;
while(j&&s[i]!=p[j+1])j=ne[j];//while循环中,j每次最少减一,(由于j>0的限制)while循环在整个for循环中最多执行n次。
类比一下,if(s[i]==p[j+1])j++是生产者,while循环是消费者,时间为n秒钟,每秒生产者至多生产一个面包,消费者要是要消费的话(前提是有面包)至少消费一个面包,所以最多消费者消费n次,生产者生产n次,所以复杂度才为O(n).