kmp算法学习笔记

最新推荐文章于 2024-04-10 20:31:12 发布

晓梦林

最新推荐文章于 2024-04-10 20:31:12 发布

阅读量456

点赞数

分类专栏： # leetcode刷题笔记文章标签：算法 c++

本文链接：https://blog.csdn.net/qq_25953411/article/details/109759040

版权

leetcode刷题笔记专栏收录该内容

58 篇文章 5 订阅

订阅专栏

前言

kmP算法有些难理解，为了在学习其他语言的时候能够触类旁通，我打算把最近学到的知识系统总结一

下，方便以后自查自纠。不对的地方，还望见谅和指正。

KMP算法定义

kmp算法由三位学者发明：Knuth，Morris和Pratt，取了三位学者名字的首字母。所以叫做KMP

KMP算法作用

主要应用于字符串匹配。

众所周知，字符串匹配需要两个对象：文本串，模板串。

当出现字符串不匹配时，可以利用KMP算法知道一部分之前已经匹配的文本内容，避免文本串从头再去做匹配，减少了时间复杂度。

这也引出了一个关键点。

KMP算法时间复杂度

假设有一串文本串，长度为n，模式串长度为m。

因为在字符串匹配的过程中，文本串会根据模式串的前缀表，去调整自己的位置。

可以看出，匹配的过程是O(n)。

但是，针对模式串，之前还有单独生成前缀表（next数组），其时间复杂度是是O(m)。

所以，整个KMP算法的时间复杂度是O(n+m)的。

下一个关键点。

什么是前缀表

前缀表是用来记录模式串里，下表i位置之前（包括i）的字符串中，有多大长度的相同前缀后缀。方便指针回溯

它记录了文本串与模式串不匹配的时候，模式串应该从哪里开始重新匹配。

举个例子，要在文本串：aabaabaafa中查找是否出现过一个模式串：aabaaf。
在这里插入图片描述
使用前缀表，就不会从头匹配，通过next数组标记模式串的位置，

找到从上次已经匹配的内容匹配，即三个字符b继续匹配。

可以看上图，模式串下表 i=5 的时候，字符f与b不匹配。
所以模式串根据前缀表，跳到了下表i=3的位置重新进行匹配。
下一个重点。

前缀表如何计算

以aabaabaafa为例：
长度为前1个字符的子串a，最长相同前后缀的长度为0。
长度为前2个字符的子串aa，最长相同前后缀的长度为1。
长度为前3个字符的子串aab，最长相同前后缀的长度为0。
长度为前4个字符的子串aaba，最长相同前后缀的长度为1。
长度为前5个字符的子串aabaa，最长相同前后缀的长度为2。
长度为前6个字符的子串aabaaf，最长相同前后缀的长度为0。
所以得出前缀表下表i的位置：
在这里插入图片描述
找到的不匹配的位置时，就看它前一个字符的前缀表的数值是多少。

为什么要看前一个字符的前缀表的数值呢，

因为要找前面字符串的最长相同的前缀和后缀。

所以要看前一位的前缀表的数值。

前一个字符的前缀表的数值是2，所有把下表移动到下表2的位置继续比配。

最后就在文本串中找到了和模式串匹配的子串了。

有了next数组，就可以根据next数组来匹配文本串s，和模式串t了。

而next数组会对前缀表统一减一，方便查找。
在这里插入图片描述

实战：leetcode28

在这里插入图片描述

传送门

思路：

1、计算模式串s的前缀表
我们定义一个函数getNext来构建next数组，函数参数为指向next数组的指针，和一个字符串。代码如下：

void getNext(int* next, const string& s)

接着，定义两个指针i和j。

j指向前缀终止位置，i指向后缀终止位置。

然后还要对next数组进行初始化赋值，如下：

int j = -1;
next[0] = j;

j 为什么要初始化为 -1呢，因为之前说过前缀表要统一减一的操作，所以j初始化为-1。

next[i] 表示 i（包括i）之前最长相等的前后缀长度（其实就是j）

所以初始化next[0] = j 。

接下来，会分两种情况编码：

①前后缀不相同的情况

因为j初始化为-1，那么i就从1开始，进行s[i] 与 s[j+1]的比较。

所以遍历模式串s的循环下表i 要从 1开始，

如果 s[i] 与 s[j+1]不相同，也就是遇到前后缀末尾不相同的情况，就要向前回溯。

怎么回溯呢？

next[j]就是记录着j（包括j）之前的子串的相同前后缀的长度。

那么 s[i] 与 s[j+1] 不相同，就要找 j+1前一个元素在next数组里的值（next[j]）。

②前后缀相同的情况

如果s[i] 与 s[j + 1] 相同，说明找到了相同的前后缀。那么就同时向后移动i （通过for循环）和j （通过if语句），同时还要将j（前缀的长度）赋给next[i], 因为next[i]要记录相同前后缀的长度。

总体构建next数组的函数代码如下：

void getNext(int* next, const string& s){
    int j = -1;
    next[0] = j;
    for(int i = 1; i < s.size(); i++) { // 注意i从1开始
        while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同
            j = next[j]; // 向前回溯
        }
        if (s[i] == s[j + 1]) { // 找到相同的前后缀
            j++;
        }
        next[i] = j; // 将j（前缀的长度）赋给next[i]
    }
}

在这里插入图片描述
得到了next数组之后，就可以做字符串匹配了。

在文本串s里找是否出现过模式串t。

定义两个下表j 指向模式串起始位置，i指向文本串其实位置。

那么j初始值依然为-1「因为next数组里记录的起始位置为-1。」

i就从0开始，遍历文本串：

for (int i = 0; i < s.size(); i++)

如果 s[i] 与 t[j + 1] 相同，那么i 和 j 同时向后移动：

if (s[i] == t[j + 1]) {
    j++; // i的增加在for循环里
}

如果 s[i] 与 t[j + 1] 不相同，j就要从next数组里寻找下一个匹配的位置：

while(j >= 0 && s[i] != t[j + 1]) {
    j = next[j];
}

ps:不同，用while循环;相同，用if循环

那如何判断在文本串s完完整整的，出现了模式串t呢？

如果j指向了模式串t的末尾，那么就说明模式串t完全匹配文本串s里的某个子串了。

本题要在文本串字符串中找出模式串出现的第一个位置 (从0开始)，

所以返回当前在文本串匹配模式串的位置i 减去模式串的长度，

就是文本串字符串中出现模式串的第一个位置。

if (j == (t.size() - 1) ) {
    return (i - t.size() + 1);
}

因此，模式串匹配文本串的代码如下：

int j = -1; // 因为next数组里记录的起始位置为-1
for (int i = 0; i < s.size(); i++) { // 注意i就从0开始
    while(j >= 0 && s[i] != t[j + 1]) { // 不匹配
        j = next[j]; // j 寻找之前匹配的位置
    }
    if (s[i] == t[j + 1]) { // 匹配，j和i同时向后移动
        j++; // i的增加在for循环里
    }
    if (j == (t.size() - 1) ) { // 文本串s里出现了模式串t
        return (i - t.size() + 1);
    }
}

代码

class Solution {
public:
    void getNext(int* next, const string& s) {
        int j = -1;
        next[0] = j;
        for(int i = 1; i < s.size(); i++) { // i从1开始
            while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同
                j = next[j]; // 向前回溯
            }
            if (s[i] == s[j + 1]) { // 相同的前后缀
                j++;
            }
            next[i] = j; // 将j（前缀的长度）赋给next[i]
        }
    }
    int strStr(string haystack, string needle) {
        if (needle.size() == 0) {
            return 0;
        }
        int next[needle.size()]; //定义next数组，方便回溯
        getNext(next, needle);
        int j = -1; // // 因为next数组里记录的起始位置为-1
        for (int i = 0; i < haystack.size(); i++) { // i就从0开始
            while(j >= 0 && haystack[i] != needle[j + 1]) { // 当不匹配
                j = next[j]; //就一直，让 j 寻找之前匹配的位置
            }
            if (haystack[i] == needle[j + 1]) { // 如果匹配，j和i同时向后移动 
                j++; 
            }
            if (j == (needle.size() - 1) ) { // 如果文本串s里出现了模式串t，即j读到了模式串的末尾
                return (i - needle.size() + 1); 
            }
        }
        return -1;
    }
};