【模版】字符串匹配 KMP 算法


字符串匹配KMP算法


给出两个字符串 S 1 S_1 S1 S 2 S_2 S2 ,其中 S 2 S_2 S2 S 1 S_1 S1 的子串.
1. 1. 1. 求出 S 2 S_2 S2 S 1 S_1 S1中所有出现的位置.
2. 2. 2. 输出子串的前缀数组 n x t [ i ] nxt[i] nxt[i].


先引入两个概念(通俗解释):
文本串:被用来查找模式串的字符串。 (即 S 1 S_1 S1
模式串:要查找的字符串。(即 S 2 S_2 S2

将模式串与文本串做匹配时,若用传统的从头到尾匹配法,复杂度 O ( N + M ) O(N+M) O(N+M) O ( N ∗ M ) O(N*M) O(NM) 不等。考虑用奇怪的玄学方法优化。
如果 模式串匹配到最后几位了,发现出现了失配,那么全面放弃还是挺可惜的,毕竟前边匹配了那么多。如果当前的模式串前面出现了 一个真子集,与该模式串前缀相同,那么该前缀可以向前移动过来啊,这一部分也一定匹配的。也就是说,将模式串整体向前移动也若干位,因为我们通过前缀移动自动匹配的,我们保证其匹配。
比如:
模式串: A B C A B C D ABCABCD ABCABCD
文本串: A B C A B C A B C D ABCABCABCD ABCABCABCD
匹配前六个字符时成功,但是第七位不成功,但发现第 1 1 1 2 2 2 3 3 3 位字符与第 4 4 4 5 5 5 6 6 6 位字符相同,那么我们可以把前三位字符向前推进三位,然后再往后推进。这样就得到了优化。问题在于,当第七位失配时,如何确定第六位应该对应前边第几位呢,从这个样例来看,显然是第三位,所以引入 n x t [ i ] nxt[i] nxt[i] 数组,表示 在 模 式 串 第 在模式串第 i i i 位 失 配 时 位失配时 应 该 退 回 到 应该退回到 退 n x t [ i ] nxt[i] nxt[i] 位 位 ,再次向后匹配。所以我们应该预处理 n x t [ i ] nxt[i] nxt[i] 数组。
所以上边样例的 n x t [ i ] nxt[i] nxt[i] 的值(从下标 1 1 1 开始): 0 、 0 、 0 、 1 、 2 、 3 、 0 0、0、0、1、2、3、0 0001230
预处理方法如图所示:

int p = 0;
for(int i = 2; i <= len2; i++)
{
    while(p && s2[i] != s2[p+1])    p = nxt[p];
    if(s2[p+1] == s2[i])    p++;
    nxt[i] = p;
}

那么与文本串匹配时的书写,如下所示:

p = 0;
for(int i = 1; i <= len1; i++)
{
    while(p && s2[p+1] != s1[i])  p = nxt[p];
    if(s2[p+1] == s1[i])    p++;
    if(p == len2)
    {
        printf("%d\n",i-len2+1);
        p = nxt[p];
    }
}

还没做练习题,待学完AC自动机后再补题补坑吧(2020年2月21日 14:12:40)

完整代码:

#include <iostream>
#include <cstdio>
#include <algorithm>
#include <cstring>
#include <cmath>
#include <cstdlib>
using namespace std;
char s1[1001000],s2[1000100];
int nxt[1001000];
int main()
{
    scanf("%s%s",s1+1,s2+1);
    int len1 = strlen(s1+1), len2 = strlen(s2+1);
    int p = 0;
    for(int i = 2; i <= len2; i++)
    {
        while(p && s2[i] != s2[p+1])    p = nxt[p];
        if(s2[p+1] == s2[i])    p++;
        nxt[i] = p;
    }
    p = 0;
    for(int i = 1; i <= len1; i++)
    {
        while(p && s2[p+1] != s1[i])  p = nxt[p];
        if(s2[p+1] == s1[i])    p++;
        if(p == len2)
        {
            printf("%d\n",i-len2+1);
            p = nxt[p];
        }
    }
    for(int i = 1; i <= len2; i++)
        printf("%d ",nxt[i]);
    system("pause");
    return 0;
}

例题:
[模版]KMP算法
[NOI2014]动物园

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值