目录
一:概念定义
求子串是常用算法之一,是基础中的难题,朴素方法求子串是使用两个for循环,最终会导致超时,当m和n太大,程序运行就比较笨重,本质原因是朴素算法每次都需要对模串的指针回溯,重复比较了一些之前比较过的东西,而今天要讲的kmp算法,指针不需要回溯到模串的头部,使用j=ne[j](后面细说这个代码的含义,也是代码比较难以理解的一部分)即可。
二:题目描述
给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模式串 P 在字符串 S 中多次作为子串出现。
求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。
数据范围
1 ≤ N ≤ 10^5
1 ≤ M ≤ 10^6
输入样例
3
aba
5
ababa
输出样例
0 2
三:思路解析
一些代码定义:
1、s[ ]是模式串,即比较长的字符串。
2、p[ ]是模板串,即比较短的字符串。
3、“非平凡前缀”:指除了最后一个字符以外,一个字符串的全部头部组合。
4、“非平凡后缀”:指除了第一个字符以外,一个字符串的全部尾部组合。(后面会有例子,均简称为前/后缀)
5、“部分匹配值”:前缀和后缀的最长共有元素的长度。
6、ne[ ]是“部分匹配值表”,即ne数组,它存储的是每一个下标对应的“部分匹配值”,是KMP算法的核心。ne[i]=j的含义是p[1~j]=p[i-j+1~i],也就是p自身的前后缀
给出一张图帮助理解
kmp的聪明之处就是不重复做冗余的工作,前面已经扫描过一遍,不需要从头扫描。和前缀和思想有一些相同之处,思路上都是不做重复工作,但是代码实现是不同的,kmp算法需要几个小时或者一两天去理解,必须要会手工模拟一遍感受代码。
当s[i]和p[j+1]不匹配的时候,指向p[j+1]的指针(不是地址,就是下标的意思)不是回溯到p的头部重新比较,而是回到上一次有部分匹配值不为0的地方。
四:万年无误代码模板 (含代码思路解析)
//用abab手工模拟一遍就能更好理解代码
#include <iostream>
using namespace std;
const int N = 100010, M = 1000010; //N为模式串长度,M匹配串长度
int n, m;
int ne[N]; //ne[]数组
char s[M], p[N]; //s为总串, p为模式串
int main()
{
cin >> n >> p + 1 >> m >> s + 1; //习惯下标从1开始更方便
//求ne[]数组,只对模式串操作,类似于前缀和在输入的时候就进行求和这种预处理的思想
for (int i = 2, j = 0; i <= n; i ++ )//i从2开始,从1开始无意义,没有前后缀这一说
{
while (j && p[i] != p[j + 1]) j = ne[j];//不相同j就往上一次有部分匹配值的地方走
if (p[i] == p[j + 1]) j ++ ;//相等就把j后移一位
ne[i] = j;//每次都需要执行这一操作,标记这个点回溯可以到什么地方
}
//匹配操作
for(int i = 1, j = 0; i <= m; i ++)
{
while(j && s[i] != p[j+1]) j = ne[j];
if(s[i] == p[j+1]) j++;
if(j == n) //满足匹配条件,打印开头下标, 从0开始
{
//如:输出以0开始的匹配子串的首字母下标
printf("%d ", i - n);
j = ne[j]; //再次继续匹配
}
}
return 0;
}
对于求ne数组,手工模拟一遍abab即可加深理解和印象
创作不易,建议点赞+收藏+关注,以免找不到宝贝文章了。
基础集训结束后将开展拔高系列