KMP（个人理解）

白勾w

已于 2024-08-18 11:09:37 修改

阅读量156

点赞数 4

文章标签：算法 c++

于 2024-08-18 11:04:01 首次发布

本文链接：https://blog.csdn.net/m0_72827446/article/details/141296991

版权

tip:以下内容仅本人理解，如有问题，欢迎指出

前言（？

首先我们要知道KMP是干嘛的

KMP 是一个字符串匹配算法，相当于AC自动机的弱化版，如果你完全理解了 KMP 和 Trie树的话，那你也离学会AC自动机不远了

对于字符串匹配，我们有一个字符串和一个模式串，需要求字符串的子串里有没有这个模式串。例如：

mobaiawa <-字符串
     awa <-模式串

它俩对齐的位置使字符串相应部分与模式串完全相同，这样的情况我们叫做匹配

在这里，我们只考虑一个字符串匹配一个模式串的情况

先丢一个暴力板子

for(int i=1;i<=n-m+1;i++){
    bool flag=1;
    for(int j=0;j<m;j++){
        if(a[i+j]!=b[j+1]){
            flag=0;
            break;
        }
    }
    if(flag){
        //匹配成功，操作
    } 
}

~~手模 / 交一份代码~~可以发现大量的时间耗费在了最初的几个字母匹配上，于是，KMP 应运而生。

大致思想：

举个例子，字符串：abcababaaabcababc，模式串：abcababc
那么我们就可以进行操作：

abcabab|a|aabcababc
abcabab|c|
        ^ 在这失配

那么我们根据贪心，直接将匹配成功的子串的等于相同长度后缀的最大前缀“拽”过来（可能说不太清楚，看操作吧）

abcab|ab| //(匹配成功的子串)
     |ab|cabab
ab为那个最大前缀

abcab|ab|aaabcababc
     |ab|cababc //“拽”过来
abcab|ab|c //原来在这

可以证明中间的都不用操作，但我太蒟蒻了，不会证明，总之这个算法就是大幅优化了失配后重新配对的时间，防止大量无意义的失配，至于配对，还是得一个一个比。

这样，就可以大幅优化原来的暴力算法了。

获得这个信息的方法，就是kmp的预处理。

预处理

这个预处理是基于一个十分神奇的思路实现的，
暴力肯定是枚举前缀判定，但，我们可以不这么做。
先上代码

for(int i=1,j=0;i<=l;i++){
    while(j&&s[i]!=s[j+1])j=next[j];
    if(s[i]==s[j+1])j++;
    next[i]=j;
}

还是那句话，思路十分神奇。

换个例子：abcabcabcdabc

首先，抛开while不谈，那么这就是一个错误的暴力写法。
next[1] 无意义，毕竟只有一个的字符串的前缀永远等于ta的后缀。
然后 next[i]=j 就说明了已经处理完了前i个前缀子串的问题了
又已知，j<=i 即过到的子串信息都已经处理好了
那么 我们就是在拿这个串做一个类似 KMP 的操作嘛

比如，过到这了：
abcabcabc|d|abc
   abcabc|a|bcdabc
          ^ 这里失配了，i=10,j=6
那么 10 之前的 next[i] 早就处理好了，直接用（因为相当于匹配后缀嘛）
那么 next[6]=3 也就是跳到了这样的匹配情况：
abcabc|abc|dabc
      |abc|abcabcdabc //跳/“拽”到这了
   abc|abc|abcdabc //原来在这
         ^ j 指向这个位置，视觉上看起来像是字符串挪动了，但代码上是 j 的位置移动
也许应该这样？：
abcabcabcdabc //j 原来在这
     ^ j的位置
abcabcabcdabc // j 跳/“拽”到这了
  ^ j 的位置
abcabcabcdabc//匹配到这了
         ^ i 的位置
对齐 i , j+1 （因为永远是判断串的下一位能否匹配）：

abcabcabcdabc
      abcabcabcdabc
        ^ j 的位置
然而 s[i] 仍然不等于 s[j+1] ，所以继续跳next[j]，直到跳到头（没有前缀，j==0 ）为止
然后就继续愉快地匹配，看以第 i 个字符为结尾的后缀字符串能否有前缀字符串匹配啦

*预处理结束

查找

上面已经讲的很清楚了就不多讲啦（逃

for(int i=1;i<=n;i++){//s2 是模式串
    while(j&&s1[i]!=s2[j+1])j=next[j];
    if(s1[i]==s2[j+1])j++;
    if(j==m){
        //匹配成功，操作
        j=next[j];//继续匹配
    }
}