一文详解KMP

参考:代码随想录 (programmercarl.com)

LeetCode链接

题目描述

找出字符串中第一个匹配的下标

给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回  -1 。

解法一

采用暴力解法

//bf算法
        char[] t = haystack.toCharArray();
        char[] s = needle.toCharArray();
        int p = 0,len1 = t.length,len2 = s.length;
        //主串没有寻找一遍,防止数组越界
        while (p<len1 && p+len2<=len1) {
            //找到第一个匹配的元素
            if (t[p]==s[0]) {
                int count = 1; //计数器,统计匹配次数,初始为1,第一个已经匹配了
                //遍历s后续元素是否也匹配,故下标从1开始
                for (int i=1;i<len2;i++) {
                    if (t[p+i]==s[i]) {
                        count++;
                    }
                }
                //判断是否完全匹配
                if (count==len2) {
                    return p;
                }
            }
            //主串指针后移1位
            p++;
        }
        return -1;

解法二

采用KMP

首先要了解,前缀 和 后缀

  • "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;
  • "后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

下面以”aabaaf”为例,进行介绍:

  • ”a”的前缀和后缀都为空集,最长共有元素的长度为0;
  • ”aa”的前缀为[a],后缀为[a],最长共有元素的长度为1;
  • ”aab”的前缀为[a, aa],后缀为[ab, b],最长共有元素的长度0;
  • ”aaba”的前缀为[a, aa, aab],后缀为[aba, ba, a],最长共有元素的长度为1;
  • ”aabaa”的前缀为[a, aa, aab, aaba],后缀为[abaa, baa, aa, a],,a和aa都是其共有元素,最长共有元素为”aa”,长度为2;
  • ”aabaaf”的前缀为[a, aa, aab, aaba, aabaa],后缀为[abaaf, baaf, aaf, af, f],没有共有元素,长度为0;

因此我们上述最长共有元素进行组合便可以得到Next数组

Next = [0, 1, 0, 1, 2, 0]

【Next数组代码解法】

    public static int[] getNext(String needle) {
        int[] next = new int[needle.length()];
        int j = 0;
        for (int i = 1; i < next.length; i++) {
            while (j > 0 && needle.charAt(j) != needle.charAt(i))
                j = next[j - 1];
            if (needle.charAt(j) == needle.charAt(i)) {
                j++;
            }
            next[i] = j;
        }
        return next;
    }

【图解】 

因此我们便可以根据Next数组进行KMP配对了。

public static int strStr(String haystack, String needle) {
        if (needle.length() == 0) {
            return 0;
        }
        int[] next = getNext(needle);
        // 1.i 指向 haystack的元素,j指向needle中的元素
        int j = 0;
        for (int i = 0; i < haystack.length(); i++) {
            // 2.2回退
            while (j > 0 && needle.charAt(j) != haystack.charAt(i)) {
                j = next[j - 1];
            }
            // 2.1一个元素匹配成功,j进行前进
            if (needle.charAt(j) == haystack.charAt(i)) {
                j++;
            }
            // 3.全部元素匹配成功,直接返回。
            if (j == needle.length()) {
                return i - j + 1;
            }
        }
        // 4.没有配对成功则返回-1;
        return -1;
    }

我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兜兜转转m

一毛钱助力博主实现愿望

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值