KMP算法详解,以及如何求next数组的个人理解思路

问题描述

什么是KMP

说到KMP,先说一下KMP这个名字是怎么来的,为什么叫做KMP呢。
因为是由这三位学者发明的:Knuth,Morris和Pratt,所以取了三位学者名字的首字母。所以叫做KMP

KMP有什么用

KMP主要应用在字符串匹配上。

KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。

所以如何记录已经匹配的文本内容,是KMP的重点,也是next数组肩负的重任。

其实KMP的代码不好理解,一些同学甚至直接把KMP代码的模板背下来。

没有彻底搞懂,懵懵懂懂就把代码背下来太容易忘了。

不仅面试的时候可能写不出来,如果面试官问:next数组里的数字表示的是什么,为什么这么表示?

估计大多数候选人都是懵逼的。

下面就带大家把KMP的精髓,next数组弄清楚。

next数组

那么先不谈next数组的用法,我们直接来讨论这个数组是如何计算的,通常来讲,这个数组表示模式串在当前位置i之前(包括i
)这个子串的前后最长相等前后缀。
那么什么是最长相等前后缀呢
字符串的前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串。
后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。
正确理解什么是前缀什么是后缀很重要!
所以字符串a的最长相等前后缀为0。 字符串aa的最长相等前后缀为1。 字符串aaa的最长相等前后缀为2。 等等…
给出一个模式串aabaaf
在i=0 时, 最长相等前后缀为0;
在i=1时,字符串aa的最长相等前后缀为1;
在i=2时,字符串aab最长相等前后缀为0;
以此类推

那么下一个问题,next数组有什么用?

要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。
要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。
要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。
我们看到这个问题的时候第一反应是不是通过暴力解法,来求,
那么我们定义一个指针i,从0到text.length()-1,进行循环
同时呢,每次更新i,我们都要向后遍历一边j也就是遍历一遍模式串进行比较
通过这样的分析我们可以得知,这个暴力算法的时间复杂度为O(mn)m为文本串的长度,n为模式串的长度

那么我们该如何去降低复杂度的,模式串是很长的,也就导致一个情况,对于文本串来说,每次向后走一位然后与模式串进行比较,这点是非常合理,并且不能进行优化的部分了,那么重点就在“和模式串进行比较”上面,对于暴力解法来说,每次比较失败,我们需要将文本串向后移动,并且模式串也得从头和文本串进行比较,那么这一点明显是可以进行优化的,也就是说对于已经比较完的部分模式串,我们发现它存在着前后相等的前后缀,也就表明,我们无需将模式串的指针移到头部,而只需要将他移到最长前后缀的位置,因为后缀已经比较过了,那么后缀和前缀相等,也就是说模式串的那部分前缀无需比较,由这个思想,我们就减少的时间复杂度,变成了O(m+n)。那么下一个问题就是,当比较失败的时候模式串跳转的位置,如何求
这就回到了我们之前讲的next数组了。

public void getNext(String needle, int[] next){
        next[0]=0;
        int j=0;
        for(int i =1; i<needle.length();i++){
            while(j>0 && needle.charAt(i) != needle.charAt(j)){
                j=next[j-1];
            }
            if(needle.charAt(i) == needle.charAt(j)){
                j++;
            }
            next[i] = j;
        }
    }

上面就是求next数组的代码了
有着三种情况,第一个就是默认初始化,当下标为0时,一个字母的子串很明显是没有前后缀的,所以next【0】=0;
接下来就是将i向后遍历,找到每个子串的,最长公共前后缀
又分为两种情况,
第一种就是needle.charAt(i) == needle.charAt(j),那么就是把下个i和下个j进行比较,这个很好理解
第二种,也是难点,当needle.charAt(i) != needle.charAt(j)不等的时候该如何处理,
这里有个小trick,当不等的情况发生时,证明我们最长公共前后缀要进行减小了,那么减小多少的,或者说我们重新从哪里进行比较呢,这时候我们还是用到了前面讲到的思想,我们已经比较了j-1前所有的前缀子串当第j位不行的时候我们就得找到第i位之前我们已有的最长前后缀是多少,而这个长度我们已经用next【j-1】进行保存了,所以我们只需要将j=next【j-1】然后继续进行比较,如果不等,那么继续缩短j,如果相等,就让j++。
完整代码如下

class Solution {
    public int strStr(String haystack, String needle) {
            int[] next = new int[needle.length()];
            getNext(needle,next);
            int j =0;
            for(int i=0; i<haystack.length();i++){
                while(j>0 && needle.charAt(j) != haystack.charAt(i)){
                    j=next[j-1];
                }
                if(needle.charAt(j) == haystack.charAt(i)){
                    j++;
                }
                if(j == needle.length()){
                    return (i-needle.length()+1);
                }
            }
            return -1;
    }
    public void getNext(String needle, int[] next){
        next[0]=0;
        int j=0;
        for(int i =1; i<needle.length();i++){
            while(j>0 && needle.charAt(i) != needle.charAt(j)){
                j=next[j-1];
            }
            if(needle.charAt(i) == needle.charAt(j)){
                j++;
            }
            next[i] = j;
        }
    }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱 coding 的遥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值