KMP算法详解

前言

KMP算法是用于做字符串匹配的算法,KMP的经典思想就是:当出现字符串不匹配时,可以记录一部分之前已经匹配的文本内容,利用这些信息避免从头再去做匹配。

想必搜到KMP算法的读者已经知道KMP算法是用来做什么的了,只是还不理解这个算法。这篇博客就帮助大家完全理解KMP算法。

什么是KMP?

KMP是Knuth,Morris和Pratt三位学者发明的算法,所以就取三位的首字母作为算法名字。

KMP有什么用?

KMP主要应用在字符串匹配上。

KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。

KMP的核心组件——前缀表

KMP算法中有一个很重要的概念就是前缀表,这个前缀表是什么?有什么作用呢?

字符串匹配问题往往是这样的:给两个字符串,一个称为主串(文本串),另一个称为模式串,字符串匹配的目的就是在主串中找到模式串的匹配。那么我们直观的想法一定是通过某种遍历的方式,判断某一部分主串是否能和模式串匹配,成功匹配我们就达到了字符串匹配的目的,如果暂时不匹配,我们就遍历主串的下一个部分,同时也要重新从头遍历模式串。前缀表的作用就是当遍历当前部分主串时,如果发现该部分不能与模式串匹配,我们不想从头开始遍历模式串,因为我们很有可能在之前的匹配过程中已经找到了模式串和主串很长的匹配部分。这时就用到了前缀表,它是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。

前缀表如何记录曾经的匹配信息?

我们先举一个例子,定义一个问题,根据问题来解释原理更容易理解。
问题: 要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。

首先明确前缀表的目的就是在某个字符失配时,前缀表会告诉你下一步匹配中,模式串应该跳到哪个位置。当我们尝试进行匹配时会发现,前面aabaa字符都能匹配上,而接下来的b和f不能匹配上,那么从哪里开始重新进行匹配呢?我们从正面逻辑想一下,这个时候匹配失败了,对于主串和模式串来说,哪些部分的字符串可以认为已经成功匹配呢?一定是以模式串为标准来考虑这个问题,因为我们要在主串中匹配出一个模式串。

首先要记住, 任何字符匹配失败的情况,都有一个已知的条件,那就是:模式串中,这个匹配失败的字符的前面都已经匹配成功了,同样在主串中,对应匹配失败的字符前面也有完全一样的匹配成功的字符串。 我们先把匹配的过程想象为:把模式串放在主串下面,通过移动模式串看什么时候可以刚好匹配上。再次回到我们的目标,目前这个字符已经匹配失败了,这已经不能满足我们在主串中匹配模式串的目的了,而此时只有将模式串继续向后移动才有可能找到成功匹配的结果,重点来了!!! 这个时候我们就在做一件事,我们在尝试在成功匹配的主串部分的后缀和成功匹配的模式串部分的前缀中寻找一个公共的字符串,而最长的公共字符串一旦找到,我们就可以将这个公共字符串当成我们已经再次成功匹配的部分,直接继续匹配后面的部分就可以了。

上文中提到了前缀和后缀的概念,这并不是大家通用的一个概念,这里做一下解释。假设有一个字符串abcdefg,那么从g开始向前面累积的字符串都算作这个字符串的后缀,但是不包括这个字符串本身,所以g、fg、efg、defg、cdefg、bcdefg都是这个字符串的后缀。前缀同理,a、ab、abc、abcd、abcde、abcdef都是字符串的前缀。

基于上面的解释,为了让前缀表记录我们曾经成功匹配的信息,并且能在当前字符匹配失败时告诉我们前面匹配过的部分,模式串的前缀和主串的后缀最长有多长的公共字符串,即前面成功匹配的字符串的前缀和后缀的最长公共字符串是多少,这样就可以帮助我们定位到下次可以直接继续匹配的位置,而不必再从头遍历模式串以及从下一个位置开始遍历主串。 所以前缀表要记录的信息就是,从模式串的开头到当前字符的字符串的前缀后缀最长的公共字符串长度。 这里实现细节可以有些变化,但核心思想是不变的,实现细节参考下面的前缀表的实现——next数组部分。

回到例子里,假设我们在遍历匹配时已经填好了前面部分的前缀表,当b和f匹配失败时,我们要找f前面的字符串的前缀后缀最长公共字符串长度,所以直接访问前缀表中f的前一个位置的元素,我们就知道了aabaa前缀后缀最长公共字符串长度为2,也就是说,我们下一次匹配可以把模式串向后移动直到成功匹配的主串部分和成功匹配的模式串部分只剩下两个字符,也就是主串第二次出现的aa和模式串第一次的aa刚好对应上,然后我们从主串匹配失败的b和模式串aa后面的b开始进行下一次匹配。针对这个例子,实现这个算法的时候,总结下来就是,字符匹配失败时,主串的指针不动,模式串的指针跳到下标为2的位置,继续匹配。 至此我们就讲清楚前缀表的原理和作用了。

KMP算法的时间复杂度

主串长度为n,模式串长度为m,前缀表的长度和模式串长度一样为m,我们匹配过程中需要构造一次前缀表,时间复杂度是O(m),主串的匹配指针只遍历一次,对于主串来说,模式串是有限次操作,所以匹配过程的时间复杂度是O(n),所以最终KMP算法的时间复杂度为O(n+m)。

前缀表的实现——next数组

用代码实现前缀表时,一般都写成next数组,可能原因是前缀表在告诉我们下一次匹配从哪里开始吧。

计算一个前缀表,我们需要提供一个字符串,并且提供一个数组用来填写前后缀最长公共字符串的长度。

首先第一个字符是不存在前缀和后缀的,所以next[0]初始化为0,然后开始进行遍历,每次遍历的目的是什么呢?就是判断从第一个字符到当前字符的字符串(包含当前字符)的前后缀最长公共字符串的长度。

判断过程的实现,我们要有一个迭代的思想,前缀表是从前向后形成的,也就是说每次遍历到一个新的字符时,我们是已知前面字符串的前后缀最长公共字符串长度的,假设这个长度为2,那就说明如果我们要继续找新字符串的前后缀最长公共子串长度,对于前缀指针应该从下标为2的位置开始,当前字符串应该从新加入的字符开始判断是否相等。

前缀表的计算代码如下:

void getNext(int* next, const string& s) {
    int j = 0;
    //初始化前缀表第一个值
    next[0] = 0;
    //开始填写前缀表剩余部分
    for (int i = 1; i < s.size(); i++) {
    	//
        while (j > 0 && s[i] != s[j]) { // j要保证大于0,因为下面有取j-1作为数组下标的操作
            j = next[j - 1]; // 注意这里,是要找前一位的对应的回退位置了
        }
        if (s[i] == s[j]) {
            j++;
        }
        next[i] = j;
    }
}

KMP算法的应用——字符串匹配

leetcode 28. 实现 strStr()
题目: 给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回 -1 。

示例 1:
输入:haystack = “sadbutsad”, needle = “sad”
输出:0
解释:“sad” 在下标 0 和 6 处匹配。
第一个匹配项的下标是 0 ,所以返回 0 。

示例 2:
输入:haystack = “leetcode”, needle = “leeto”
输出:-1
解释:“leeto” 没有在 “leetcode” 中出现,所以返回 -1 。

解法:

class Solution {
public:
    void getNext(int* next, const string& s) {
        int j = 0;
        next[0] = 0;
        for(int i = 1; i < s.size(); i++) {
            while (j > 0 && s[i] != s[j]) {
                j = next[j - 1];
            }
            if (s[i] == s[j]) {
                j++;
            }
            next[i] = j;
        }
    }
    int strStr(string haystack, string needle) {
        if (needle.size() == 0) {
            return 0;
        }
        //计算模式串的前缀表
        int next[needle.size()];
        getNext(next, needle);
        //类似前缀表计算的原理,进行匹配
        //j是前缀表的指针,也是模式串指针
        //i是主串的指针
        int j = 0;
        for (int i = 0; i < haystack.size(); i++) {
            //当前字符没有成功匹配时,模式串指针退回到已经成功匹配的字符串的最长前后缀公共字符串的位置,j=0时不退回,因为第一个字符还没匹配上,也没有位置可退,退回操作都是至少找到了第一个匹配的字符以后才开始进行
            while(j > 0 && haystack[i] != needle[j]) {
                j = next[j - 1];
            }
            //当前字符成功匹配,j++,下次循环中尝试匹配下一个字符
            if (haystack[i] == needle[j]) {
                j++;
            }
            //匹配到了完整的字符串,返回字符串起始下标
            if (j == needle.size() ) {
                return (i - needle.size() + 1);
            }
        }
        return -1;
    }
};
  • 25
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值