831.KMP字符串 做题笔记

本文详细介绍了KMP算法的基本概念,包括模板串、模式串、非平凡前缀/后缀和部分匹配值。核心是next数组的含义与手动模拟,以及如何利用next数组在匹配过程中避免无效的字符比较,从而提高效率。
摘要由CSDN通过智能技术生成

一、KMP算法基本概念


首先,什么是KMP算法。这是一个字符串匹配算法,对暴力的那种一一比对的方法进行了优化,使时间复杂度大大降低。

举例来说,有一个字符串"BBCABCDABABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。

​ 然后是一些基本概念

1、s[ ]是模板串。
2、p[ ]是模式串。
3、“非平凡前缀”:指除了最后一个字符以外,一个字符串的全部头部组合。
4、“非平凡后缀”:指除了第一个字符以外,一个字符串的全部尾部组合。(后面会有例子,均简称为前/后缀)
5、“部分匹配值”:前缀和后缀的最长共有元素的长度。
6、next[ ]是“部分匹配值表”,即next数组,它存储的是每一个下标对应的“部分匹配值”,是KMP算法的核心。

核心思想:在每次失配时,不是把p串往后移一位,而是把p串往后移动至下一次可以和前面部分匹配的位置,这样就可以跳过大多数的失配步骤。而每次p串移动的步数就是通过查找next[ ]数组确定的。

二、next数组的含义及手动模拟

说明一下next数组的含义:对next[ j ] ,是p[ 1, j ]串中前缀和后缀相同的最大长度(部分匹配值),即 p[ 1, next[ j ] ] = p[ j - next[ j ] + 1, j ]。

手动模拟:

对next[ 1 ] :前缀 = 空集—————后缀 = 空集—————next[ 1 ] = 0;

对next[ 2 ] :前缀 = { a }—————后缀 = { b }—————next[ 2 ] = 0;

对next[ 3 ] :前缀 = { a , ab }—————后缀 = { c , bc}—————next[ 3 ] = 0;

对next[ 4 ] :前缀 = { a , ab , abc }—————后缀 = { a . ca , bca }—————next[ 4 ] = 1;

对next[ 5 ] :前缀 = { a , ab , abc , abca }————后缀 = { b , ab , cab , bcab}————next[ 5 ] = 2;

三、匹配思路和实现代码

KMP主要分两步:求next数组、匹配字符串。

s串 和 p串都是从1开始的。i 从1开始,j 从0开始,每次s[ i ] 和p[ j + 1 ]比较。

当匹配过程到上图所示时,

s[ a , b ] = p[ 1, j ] && s[ i ] != p[ j + 1 ] 此时要移动p串(不是移动1格,而是直接移动到下次能匹配的位置)

其中1串为[ 1, next[ j ] ],3串为[ j - next[ j ] + 1 , j ]。由匹配可知 1串等于3串,3串等于2串。所以直接移动p串使1到3的位置即可。这个操作可由j = next[ j ]直接完成。 如此往复下去,当 j == m时匹配成功。

四、求next数组的思路和实现代码

 next数组的求法是通过模板串自己与自己进行匹配操作得出来的(代码和匹配操作几乎一样)。

代码和匹配操作的代码几乎一样,关键在于每次移动 i 前,将 i 前面已经匹配的长度记录到next数组中。

关于为什么求next数组和匹配的操作类似,因为本质是一样的:对于s串每一个特定的下标i,在满足s[i-j+1,i]=p[0,j]的前提下,我们需要找出j的最大值。唯一不同的在于,求next数组时,我们关心对于每个不同的下标i,j能走多远;匹配时,我们只关心j是否走到末尾。

细节:

1.匹配时,下标从1开始(为了减少麻烦)。所以cin时就要用s+1和p+1。这是一个指针运算,s表示的是指针char*,由于>>操作优先级低于+,所以先进行+1运算,s+1表示的是&s[1]这个地址,也就是从地址&s[1]处开始写输入,相当于舍弃了s[0]这个值,只有从1开始的以后那些下标才存放有意义的字符。

既然下标从1开始,而题目要求从0开始,最后输出的时候就要再-1,本来应该是输出i-n+1,变为i-n。

2.构造next数组时,i从2开始,因为ne[1]=0,只有一个字符没有前后缀。

完整代码:

#include<iostream>
using namespace std;
const int N=100010,M=1000010;
char s[M],p[N];
int ne[N];

int main(){
    int n,m;
    cin>>n>>p+1>>m>>s+1;
    
    for(int i=2,j=0;i<=n;i++){//构造ne数组
        while(j&&p[i]!=p[j+1]) j=ne[j];
        if(p[i]==p[j+1]) j++;
        ne[i]=j;
    }
    
    for(int i=1,j=0;i<=m;i++){//匹配过程
        while(j&&s[i]!=p[j+1]) j=ne[j];//没匹配上就从上一个相同前缀开始继续匹配
        if(s[i]==p[j+1]) j++;//匹配上了,继续匹配p的下一个字符
        if(j==n) {//匹配成功
            cout<<i-n<<" ";
            j=ne[j];//继续匹配
        }
    }
}

  • 46
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值