《浅谈KMP算法》

浅谈KMP算法

一、什么是KMP算法及一些基本概念


KMP算法:降低暴力匹配时间复杂度,时间复杂度为O(n)

基本概念:

1、s[ ]是模式串,即题目所给的需匹配字符串。(一般较长😈)
2、p[ ]是模板串,即题中所给的匹配字符串。
3、“非平凡前缀”:指除了最后一个字符以外,一个字符串的全部头部组合。
4、“非平凡后缀”:指除了第一个字符以外,一个字符串的全部尾部组合。(以下均简称为前/后缀)
5、“部分匹配值”:前缀和后缀的最长共有元素(即相等)的长度
6、next[ ]是“部分匹配值表”,即next数组,它存储的是每一个下标对应的“部分匹配值”,是KMP算法的核心。(后面作详细讲解)。

核心思想:在每次失配时,不是把p串往后移一位,而是把p串往后移动至下一次可以和前面部分匹配的位置,这样就可以跳过大多数的失配步骤。而每次p串移动的步数就是通过查找next[ ]数组确定的。

二、next数组的含义及手动模拟(具体求法和代码在后面)


next数组的含义:对next[ j ],是___p[ 1, j ]___ 串中前缀和后缀相同的最大长度(部分匹配值),即 p[ 1, next[ j ] ] = p[ j - next [ j ] + 1, j ]

如:

模拟next数组:

例:p = “abcab”

pabcab
下标12345
next [ ]00012
  • 对next 1 :前缀 = 空集—————后缀 = 空集—————next 1 = 0;

  • 对next[ 2 ] :前缀 = { a }—————后缀 = { b }—————next[ 2 ] = 0;

  • 对next[ 3 ] :前缀 = { a , ab }—————后缀 = { c , bc}—————next[ 3 ] = 0;

  • 对next[ 4 ] :前缀 = { a , ab , abc }—————后缀 = { a . ca , bca }—————next[ 4 ] = 1;

  • 对next[ 5 ] :前缀 = { a , ab , abc , abca }————后缀 = { b , ab , cab , bcab}————next[ 5 ] = 2;

三、匹配思路和实现代码


KMP主要分两步:求next数组、匹配字符串

s串 和 p串都是从1开始的。i 从1开始,j 从0开始,每次s[ i ] 和p[ j + 1 ]比较

在这里插入图片描述

当匹配过程到上图所示时,

s[ a , b ] = p[ 1, j ] && s[ i ] != p[ j + 1 ] 此时要移动p串(不是移动1格,而是直接移动到下次能匹配的位置)

其中1串为[ 1, next[ j ] ],3串为[ j - next[ j ] + 1 , j ]。由匹配可知 1串等于3串,3串等于2串。所以直接移动p串使1到3的位置即可。这个操作可由 j = next[ j ]直接完成。 如此往复下去,当 j == m时匹配成功。

代码如下

for(int i = 1, j = 0; i <= n; i++)
{
    while(j && s[i] != p[j+1]) j = ne[j];
    //如果j有对应p串的元素, 且s[i] != p[j+1], 则失配, 移动p串
    //用while是由于移动后可能仍然失配,所以要继续移动直到匹配或整个p串移到后面(j = 0)

    if(s[i] == p[j+1]) j++;
    //当前元素匹配,j移向p串下一位
    if(j == m)
    {
        //匹配成功,进行相关操作
        j = next[j];  //继续匹配下一个子串
    }
}

四、求next数组的思路和实现代码


next数组的求法是通过模板串自己与自己进行匹配操作得出来的
在这里插入图片描述

代码如下

for(int i = 2, j = 0; i <= m; i++)
{
    while(j && p[i] != p[j+1]) j = next[j];

    if(p[i] == p[j+1]) j++;

    next[i] = j;
}

代码和匹配操作的代码几乎一样,关键在于每次移动 i 前,将 i 前面已经匹配的长度记录到next数组中。(注:i=1时不存在匹配情况,故从i=2开始)

五、例题讲解


题目来源:AcWing 831.KMP字符串

题目

给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。

模式串 P 在字符串 S中多次作为子串出现。

求出模式串 P在字符串 S 中所有出现的位置的起始下标。

输入格式

第一行输入整数 N,表示字符串 P 的长度。

第二行输入字符串 P。

第三行输入整数 M,表示字符串 S的长度。

第四行输入字符串 S。

输出格式

共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。

数据范围

在这里插入图片描述

(数据范围有误,扩大为此数据范围的10倍)

输入样例

3
aba
5
ababa
输出样例:
0 2

AC代码:

#include <bits/stdc++.h>
using namespace std;

const int N = 1000010, M = 100010; //N为匹配串长度,M模式串长度	//注意!题目已修改,数据量范围扩大10倍!
int n, m;
int ne[M]; //next[]数组,避免和头文件next冲突
char s[N], p[M];  //s为匹配串, p为模式串(此处与前文举例时S、P意义相反,依题意修改

int main()
{
    cin >> n >> p+1 >> m >> s+1;  //下标从1开始

    //求next[]数组
    for(int i = 2, j = 0; i <= n; i++)
    {
        while(j && p[i] != p[j+1]) j = ne[j];
        if(p[i] == p[j+1]) j++;
        ne[i] = j;
    }
    //匹配操作
    for(int i = 1, j = 0; i <= m; i++)
    {
        while(j && s[i] != p[j+1]) j = ne[j];
        if(s[i] == p[j+1]) j++;
        if(j == n)  //满足匹配条件,打印开头下标, 从0开始
        {
            //匹配完成后的具体操作
            //如:输出以0开始的匹配子串的首字母下标
            //printf("%d ", i - n); (若从1开始,加1)
            printf("%d ",i-n);
            j = ne[j];//再次继续匹配
        }
    }
    return 0;
}
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值