算法基础集训（第24天，共106天）------＞彻底搞懂初学者的噩梦《kmp》算法，手撕kmp

本文链接：https://blog.csdn.net/mary19831/article/details/126728936

一：概念定义

求子串是常用算法之一，是基础中的难题，朴素方法求子串是使用两个for循环，最终会导致超时，当m和n太大，程序运行就比较笨重，本质原因是朴素算法每次都需要对模串的指针回溯，重复比较了一些之前比较过的东西，而今天要讲的kmp算法，指针不需要回溯到模串的头部，使用j=ne[j]（后面细说这个代码的含义，也是代码比较难以理解的一部分）即可。

二：题目描述

给定一个字符串 S，以及一个模式串 P，所有字符串中只包含大小写英文字母以及阿拉伯数字。

模式串 P 在字符串 S 中多次作为子串出现。

求出模式串 P 在字符串 S 中所有出现的位置的起始下标。

输入格式

第一行输入整数 N，表示字符串 P 的长度。

第二行输入字符串 P。

第三行输入整数 M，表示字符串 S 的长度。

第四行输入字符串 S。

输出格式

共一行，输出所有出现位置的起始下标（下标从 0 开始计数），整数之间用空格隔开。

数据范围

1 ≤ N ≤ 10^5
1 ≤ M ≤ 10^6

输入样例

3

aba

5

ababa

输出样例

0 2

三：思路解析

一些代码定义：

1、s[ ]是模式串，即比较长的字符串。
2、p[ ]是模板串，即比较短的字符串。
3、“非平凡前缀”：指除了最后一个字符以外，一个字符串的全部头部组合。
4、“非平凡后缀”：指除了第一个字符以外，一个字符串的全部尾部组合。（后面会有例子，均简称为前/后缀）
5、“部分匹配值”：前缀和后缀的最长共有元素的长度。
6、ne[ ]是“部分匹配值表”，即ne数组，它存储的是每一个下标对应的“部分匹配值”，是KMP算法的核心。ne[i]=j的含义是p[1~j]=p[i-j+1~i]，也就是p自身的前后缀

给出一张图帮助理解

kmp的聪明之处就是不重复做冗余的工作，前面已经扫描过一遍，不需要从头扫描。和前缀和思想有一些相同之处，思路上都是不做重复工作，但是代码实现是不同的，kmp算法需要几个小时或者一两天去理解，必须要会手工模拟一遍感受代码。

当s[i]和p[j+1]不匹配的时候，指向p[j+1]的指针（不是地址，就是下标的意思）不是回溯到p的头部重新比较，而是回到上一次有部分匹配值不为0的地方。

四：万年无误代码模板（含代码思路解析）

//用abab手工模拟一遍就能更好理解代码
#include <iostream>

using namespace std;

const int N = 100010, M = 1000010; //N为模式串长度，M匹配串长度

int n, m;
int ne[N]; //ne[]数组
char s[M], p[N];  //s为总串， p为模式串

int main()
{
    cin >> n >> p + 1 >> m >> s + 1;  //习惯下标从1开始更方便

    //求ne[]数组，只对模式串操作，类似于前缀和在输入的时候就进行求和这种预处理的思想
    for (int i = 2, j = 0; i <= n; i ++ )//i从2开始，从1开始无意义，没有前后缀这一说
    {
        while (j && p[i] != p[j + 1]) j = ne[j];//不相同j就往上一次有部分匹配值的地方走
        if (p[i] == p[j + 1]) j ++ ;//相等就把j后移一位
        ne[i] = j;//每次都需要执行这一操作，标记这个点回溯可以到什么地方
    }
    
    //匹配操作
    for(int i = 1, j = 0; i <= m; i ++)
    {
        while(j && s[i] != p[j+1]) j = ne[j];
        if(s[i] == p[j+1]) j++;
        if(j == n)  //满足匹配条件，打印开头下标, 从0开始
        {
            //如：输出以0开始的匹配子串的首字母下标
            printf("%d ", i - n); 
            j = ne[j];            //再次继续匹配
        }
    }

    return 0;
}

对于求ne数组，手工模拟一遍abab即可加深理解和印象