目录
一、思路
当子串P与模式串S匹配一部分时,在两个串的接下来的一个元素不相同,而在已经匹配成功的串中存在前缀等于后缀。此时后缀最后一个元素的下标为 i ,前后缀相等的最大长度为 j ,则有next[i] = j 。
需要注意的是,在C++中,定义int next[N] 有可能会报错,所以最好定义成int ne[N]。(next为C++的保留字)
next[ j ]的值为下标为 j + 1 时失配,1 ~ j 的前后缀相等的最大长度(注意:最大前后缀不包括自身)
next[1] = 0 因为此时 i = 2 失配,而匹配成功的部分只有一个元素,所以为next为0。
二、AcWing 831 KMP字符串
给定一个模式串 S,以及一个模板串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串 P 在模式串 S 中多次作为子串出现。
求出模板串 P 在模式串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。
数据范围
1≤N≤100000
1≤M≤1000000
输入样例:
3
aba
5
ababa
输出样例:
0 2
#include<iostream>
using namespace std;
const int N = 100010, M = 1000010;
int n, m;
char p[N], s[M];//注意要开char,而不是int
int ne[N];//只需要开到N,next对应子串; 而且由于是全局变量,可使ne[1] = 0;
int main()
{
cin >> n >> p + 1 >> m >> s + 1;//这里表示从下标为1的位置开始存字符
//求next数组
for (int i = 2, j = 0; i <= n; i ++ )
{
//这里防止出现 j = 0 时仍使用next数组
while (j && p[i] != p[j + 1]) j = ne[j];
if (p[i] == p[j + 1]) j ++ ;
ne[i] = j;
}
//kmp匹配
for (int i = 1, j = 0; i <= m; i ++ )
{
//next数组的下标范围为1 ~ n,所以要想使用,则j != 0;
while (j && s[i] != p[j + 1]) j = ne[j];//会出现j不断向左边退,如果j+1持续失配
//可能会出现while循环之后,j退回到0的情况
if (s[i] == p[j + 1]) j ++ ;//j表示匹配成功的最后一位,j + 1表示失配的那一位
if (j == n)//保证 j 不会超出 n 的范围
{
printf("%d ", i - n);//i - n是因为题目要求输出下标是从0开始的
j = ne[j];//开始寻找下一段完全匹配的起始位置
}
}
return 0;
}
在kmp匹配过程中,出while循环有两种情况:
1. j = 0,退无可退了。这个时候只好将 i 再右移一位,p串从第一个元素开始匹配。
2. 下一个元素匹配成功。j ++ 之后,i ++ ,再判断下一个。
三、时间复杂度
O( n )
原因:第二个for循环中的 j ++ 最多执行m次(即假设每次都满足条件),而while循环中的 j = ne[j]
一旦执行意味着 j 至少减一,但是只有当 j > 0 时才会进入while循环,所以 j = ne[ j ]最多执行 m 次
第二个 if 语句不经常执行,可以忽略不计,所以总执行次数为 2m ,时间复杂度为 O( n )。