KMP算法详解

最新推荐文章于 2024-01-11 22:24:30 发布

Xin_Hack

最新推荐文章于 2024-01-11 22:24:30 发布

阅读量687

点赞数 4

分类专栏： Acwing

本文链接：https://blog.csdn.net/m0_51691373/article/details/124149457

版权

算法 c++

Acwing 专栏收录该内容

36 篇文章 3 订阅

订阅专栏

数据结构大作业1-KMP算法

一、KMP算法及其基本概念

KMP全称为Knuth Morris Pratt算法，三个单词分别是三个作者的名字。KMP是一种高效的字符串匹配算法，用来在主字符串中查找模式字符串的位置(比如在“hello,world”主串中查找“world”模式串的位置)。

然后是一些基本概念：

为了保证严谨性，可能不可避免地我还是会给出不少概念轰炸，如果想要快速理解的同学们可以直接多看看例子

1、s[ ]是模式串，即比较长的字符串。

2、p[ ]是模板串，即比较短的字符串。

注：用长短可能不严谨，但是比较形象，也可以这样解释，s串是我们原来的母串，我们原有的串；而p串是我们想要从s串中检索的串）

3、“非平凡前缀”：指除了最后一个字符以外，一个字符串的全部头部组合。

4、“非平凡后缀”：指除了第一个字符以外，一个字符串的全部尾部组合。（后面会有例子，均简称为前/后缀）

5、“部分匹配值”：前缀和后缀的最长共有元素的长度。

6、next[ ]是“部分匹配值表”，即next数组，它存储的是每一个下标对应的“部分匹配值”，是KMP算法的核心。（后面作详细讲解）。

核心思想：在每次失配时，不是把p串往后移一位，而是把p串往后移动至下一次可以和前面部分匹配的位置，这样就可以跳过大多数的失配步骤。而每次p串移动到哪个位置是通过查找next[ ]数组确定的。

二、next数组的含义及手动模拟

说明一下next数组的含义：对next[ j ] ，是p[ 1, j ]串中前缀和后缀相同的最大长度（部分匹配值），即 p[ 1, next[ j ] ] = p[ j - next[ j ] + 1, j ]

例子如下：

next例子.PNG

手动模拟求next数组：

对 p = “abcab”

p	a	b	c	a	b
下标	1	2	3	4	5
next[]	0	0	0	1	2

对next[ 1 ] ：前缀 = 空集—————后缀 = 空集—————next[ 1 ] = 0;

对next[ 2 ] ：前缀 = { a }—————后缀 = { b }—————next[ 2 ] = 0;

对next[ 3 ] ：前缀 = { a , ab }—————后缀 = { c , bc}—————next[ 3 ] = 0;

对next[ 4 ] ：前缀 = { a , ab , abc }—————后缀 = { a . ca , bca }—————next[ 4 ] = 1;

对next[ 5 ] ：前缀 = { a , ab , abc , abca }————后缀 = { b , ab , cab , bcab}————next[ 5 ] = 2;

三、匹配思路和实现代码

KMP主要分两步：求next数组、匹配字符串。我觉得匹配操作易懂一些，难点是求next数组的思想，所以先把匹配字符串讲一下。

s串和 p串都是从1开始的。i 从1开始，j 从0开始，每次s[ i ] 和p[ j + 1 ]比较

当匹配过程到上图所示时，

s[ a , b ] = p[ 1, j ] && s[ i ] != p[ j + 1 ] 此时要移动p串（不是移动1格，而是直接移动到下次能匹配的位置）

这里我们其实可以不用把p串当成他在移动，这样不太利于我们后续的理解代码和代码实现，我们可以理解成一次失败了之后，我们在失败的位置开始继续用p串去匹配，只是按照我们日常生活中的习惯，我们会把p从头开始又去和从s[i]开始进行匹配，KMP就是帮助我们不要用这么多无用的步骤，可以从p串的某个位置开始，至于可以从头跳过多少个位置开始匹配，正好就取决于j这个位置的next数组的值了。

其中1串为[ 1, next[ j ] ]，3串为[ j - next[ j ] + 1 , j ]。由匹配可知 1串等于3串，3串等于2串。所以直接移动p串使1到3的位置即可。这个操作可由j = next[ j ]直接完成。如此往复下去，当 j == m时匹配成功。

匹配部分的代码如下：

for(int i = 1, j = 0; i <= n; i++)
{
    while(j && s[i] != p[j+1]) j = ne[j];
    //如果j有对应p串的元素， 且s[i] != p[j+1], 则失配， 移动p串
    //用while是由于移动后可能仍然失配，所以要继续移动直到匹配或整个p串移到后面（j = 0)

    if(s[i] == p[j+1]) j++;
    //当前元素匹配，j移向p串下一位
    if(j == m)
    {
        //匹配成功，进行相关操作
        j = next[j];  //继续匹配下一个子串
    }
}

四、求next数组的思路和实现代码

next数组的求法是通过模板串自己与自己进行匹配操作得出来的（代码和操作基本上一模一样）

next数组.PNG

代码如下：

for(int i = 2, j = 0; i <= m; i++)
{
    while(j && p[i] != p[j+1]) j = next[j];

    if(p[i] == p[j+1]) j++;

    next[i] = j;
}

关键在于每次移动 i 前，将 i 前面已经匹配的长度记录到next数组中，也就是i位置的next值next[i]

五、完整代码

完整借助一道实际的算法题来实现：

KMP字符串：

给定一个模式串 S，以及一个模板串 P，所有字符串中只包含大小写英文字母以及阿拉伯数字。

模板串 P 在模式串 S 中多次作为子串出现。

求出模板串 P 在模式串 S 中所有出现的位置的起始下标。

输入格式

第一行输入整数 N，表示字符串 P 的长度。

第二行输入字符串 P。

第三行输入整数 M，表示字符串 S 的长度。

第四行输入字符串 S。

输出格式

共一行，输出所有出现位置的起始下标（下标从 00 开始计数），整数之间用空格隔开。

数据范围

1≤N≤10^5

1≤M≤10^6

输入样例：

3
aba
5
ababa

输出样例：

0 2

完整代码如下：

#include<iostream>
using namespace std;

const int N = 100010,M = 1000010;

int n,m;
int ne[N];
char p[N],s[M];

int main()
{
    cin >> n >> p + 1 >> m >> s + 1;
    //初始化next数组
    for(int i = 2,j = 0;i<=n;i++)
    {
        //匹配失败时
        while(j&&p[i]!=p[j+1]) j = ne[j];
        //匹配成功，继续匹配
        if(p[i] == p[j+1])j++;
        ne[i] = j;
    }
    //开始匹配
    for(int i = 1,j = 0;i<=m;i++)
    {
        while(j&&s[i]!=p[j+1]) j = ne[j];
        if(s[i] == p[j+1])j++;
        if(j == n)
        {
            //j==n表示p串已经全部匹配完了 开始输出结果了
            printf("%d ",i-n);
            //继续匹配
            j = ne[j];
        }
    }
    
    return 0;
}

运行结果：

输入：

10
jNNNNjNNNN
30
jNNPw9NNNNnNMANTNHGNjNNNNjNNNN

输出：

标准答案：

Xin_Hack

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录