【数据结构】KMP算法(详解)

1. 朴素的模式匹配

  • 朴素算法中,当匹配到不同位时,主串指针i会退回到该次匹配起点处的下一位置,以其为下一次匹配的主串起点

  • 同时字串的j指针退回其起始位置

  • 如此一来每次匹配主串指针后移一位,字串指针始终在其起始位置

  • 时间复杂度为O(m*n)

在这里插入图片描述

2. KMP算法解决的问题

  • 可以发现下图中,在第二次匹配时,第一个元素就已经不一样了

  • 朴素算法的缺点就在于其会傻傻的执行许多次这样不必要的判断

  • 这就是KMP算法所解决的问题

在这里插入图片描述

3. KMP算法

  • 主串指针不会进行回溯,不会回到朴素匹配中的下一匹配点
  • 利用已匹配部分中的公共前后缀来调整字串指针位置,以此加速下一次匹配

根据下面的动画感受感受
在这里插入图片描述

  • 可以看到,主串指针( i )在整个查找过程中都没有前移,每次查找的起点均为上次查找的结束点,即 i 永远不递减,这也使KMP的精髓
  • 同时,当不匹配位置前一位对应的next数组中元素不为0时,字串指针( j )会向后偏移相应个数的字符
  • 这样一来,无论是主串还是字串的判断次数都得到了优化,时间复杂度优化至O(m+n)

公共前后缀(重点)

公共前后缀的计算:
这里用公式理解,计算下标为a处的公共前后缀个数,如果[a-x,a]范围的每一个元素与[0,x]范围的每一个元素相等,则a处的公共前后缀个数为x+1

在这里插入图片描述
 

这里注意找某一位置的公共前后缀时,要将起始位置的字符同该位置字符比较,而不是只要在该位置之前出现了相同元素就判断存在公共前后缀
如下图中的红色位置B,虽然在其之前存在一个字符B,但是该位置的公共前后缀为0

在这里插入图片描述

 
 
 

next 数组

理解了什么是公共前后缀,其实next数组就是存储该数组每个对应位置公共前后缀数量的数组
 

(这里的next数组实际上为PM表,PM表右移一位 (空缺的用-1填充,最后一个元素的部分匹配值用于下一个元素,但没有下一个元素故可以舍弃) 并加一得到next数组。)
在这里插入图片描述
在这里插入图片描述
next表的含义是子串的第j个字符发生失配时跳到子串的next[j]位置重新与主串当前位置进行比较。

 

代码实现next数组(PM表)

void get_next()
{
    // next数组中的元素为最长比配前缀的下标
    // 这里下标从一开始,无匹配前缀的元素为0
    // 这里的前缀匹配字符为 j 的下一个字符,j从0开始,方便填值
    // 后缀匹配字符从i=2开始,第一个字符的next值默认为0
    for(int i = 2, j = 0; i <= n1; ++i)
    {
        // 前后匹配到不同字符时,j依次向前查找,而不是直接退回起点
        // 因为j前面的next已经明确了,可以对自身进行一次next查询
        // :j>0保证j位置next为有效下标
        while(j > 0 && s1[j + 1] != s1[i])
            j = next_val[j];
        
        if(s1[j + 1] == s1[i])
            j++; // 匹配一个字符,j 后移
        
        // 每个检测next值的i位置都要填值
        next_val[i] = j; 
    }
    // for(int i = 1; i <= n1; i++)
    //     cout << next_val[i] << " ";
}

 
 

KMP算法实现

注意代码注释

#include <iostream>
#include <string>
#include <vector>

using namespace std;
const int N = 1e6 + 10; 

int n1, n2;
char s1[N], s2[N];
vector<int> next_val(N);

void get_next()
{
    // next数组中的元素为最长比配前缀的下标
    // 这里下标从一开始,无匹配前缀的元素为0
    // 这里的前缀匹配字符为 j 的下一个字符,j从0开始,方便填值
    // 后缀匹配字符从i=2开始,第一个字符的next值默认为0
    for(int i = 2, j = 0; i <= n1; ++i)
    {
        // 前后匹配到不同字符时,j依次向前查找,而不是直接退回起点
        // 因为j前面的next已经明确了,可以对自身进行一次next查询
        // :j>0保证j位置next为有效下标
        while(j > 0 && s1[j + 1] != s1[i])
            j = next_val[j];
        
        if(s1[j + 1] == s1[i])
            j++; // 匹配一个字符,j 后移
        
        // 每个检测next值的i位置都要填值
        next_val[i] = j; 
    }
    
    // for(int i = 1; i <= n1; i++)
    //     cout << next_val[i] << " ";
}

void match_trig()
{
    // i是S的下标,从1开始,j是P的下标,从0开始,j+1位进行比对
    for(int j = 0, i = 1; i <= n2; ++i)
    {
        // 同上
        while(j > 0 && s1[j + 1] != s2[i])
            j = next_val[j];
        if(s1[j + 1] == s2[i])
            j++;
        
        // j到s1尾部,输出i匹配的起始位置
        if(j == n1)
        {
            cout << i - n1 << " ";
            // j跳到next指向的元素位置
            j = next_val[j];        
        }
    }
}

int main()
{
    
    cin >> n1 >> s1 + 1 >> n2 >> s2 + 1;
    get_next();
    match_trig();
    return 0;
}
  • 14
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值