【基础算法】KMP字符串

字符串匹配问题

  • 字符串A是否为字符串B的子串?如果是的话出现在B的哪些位置?
  • 该问题就是字符串匹配问题,字符串A称为模式串,字符串B称为主串。

暴力做法

  • 我们可以枚举模式串在主串中的起点i,然后依次对比A[0]和B[i]……A[len(A)]和B[i+len(A)],如果相同则匹配成功,否则继续枚举起点。
  • 如果每次都是在最后一位失配,则会产生最坏的情况,时间复杂度为O(nm),n、m分别为A、B的长度。

优化算法(KMP)

  • 两个字符串是否相同的比较很难优化,只能逐个字符比较。然而比较的次数是可以减少的,因此尽可能减少比较的次数是算法优化的方向,也是KMP算法的核心思想。
  • KMP算法分为两步:1)求next数组;2)字符串匹配。
  • 如何减少匹配次数呢?我们可以观察每次匹配时隐含的信息。
    • 给定模式串A=“abcabd”,主串B=“abcabcabd”请添加图片描述
    • 该做法的正确性这里不作证明。
    • Q:现在,我们的问题是:如何求最长的相同的前缀pre和后缀suf?
    • A:next数组!

next数组

请添加图片描述

求next数组code

void getNext(int len, char str[])
{
	//需要注意,我们是第j+1位和第i位比较
    for (int i = 2, j = 0; i <= len; i++) {
    	//失配。如果j为0则说明没有相同的前缀和后缀,所以j=0可以推出ne[j]=j=0,因此退出循环
        while (str[i] != str[j + 1] && j) j = ne[j];
        //无论是否失配,我们都要比较主串第i位和模式串的第j+1位
        if (str[i] == str[j + 1]) j++;
        //①等于③,所以子串[1-i]的最长相同前后缀为[1-j]、[?-i]
        ne[i] = j;
    }
}

例题

给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模式串 P 在字符串 S 中多次作为子串出现。
求出模式串 P 在字符串 S 中所有出现的位置的起始下标。

完整代码

#include <iostream>

using namespace std;

const int N = 1000010;
char a[N], b[N];
int aLen, bLen;
int ne[N];
void getNext(int len, char str[])
{
    for (int i = 2, j = 0; i <= len; i++) {
        while (str[i] != str[j + 1] && j) j = ne[j];
        if (str[i] == str[j + 1]) j++;
        ne[i] = j;
    }
}
int main()
{
    cin >> aLen >> a + 1 >> bLen >> b + 1;
    
    getNext(aLen, a);
    
    for (int i = 1, j = 0; i <= bLen; i++) {
        while (a[j + 1] != b[i] && j) j = ne[j];
        if (a[j + 1] == b[i]) j++;
        if (j >= aLen) {
            cout << i - aLen<< ' ';
            j = ne[j];
        }
    }
    return 0;
}

END

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值