数据结构算法题/KMP算法，一个字符串是否包含另外一个字符串

最新推荐文章于 2023-05-22 21:32:51 发布

fkyyly

最新推荐文章于 2023-05-22 21:32:51 发布

阅读量865

点赞数 1

分类专栏：算法导论文章标签： KMP

算法导论专栏收录该内容

56 篇文章 0 订阅

订阅专栏

　字符串匹配是计算机的基本任务之一。

KMP算法：利用匹配失败得到的信息，来最大限度的移动模式串，以此来减少比较次数提高性能。

相关的名词：

搜索词是那个长的词

模式串是那个短的词

思路：

如果已经匹配的长度是0，直接将搜索词后移一位。

如果已经匹配的长度是1，如果此时不匹配了，直接将搜索词后移一位。

如果已经匹配的长度大于1，如果此时不匹配了，直接将搜索词后移已匹配的字符数 - k位。

k的值等于"已经匹配值"的"前缀"和"后缀"的最长的共有元素的长度。

其中搜索词就是要找的那个词，被包含的那个词

next数组：

KMP能提高性能原因是减少了比较次数，也就是知道k

而k从只和j有关，这就意味着移动的次数只和模式串有关，和目标串无关

简单来说，就是我们得到模式串后就能立马知道移动的次数，这就是next数组。里面储存的就是k值。

next数组的计算：

这里是用被包含的较短字符串(模式串)，自己与自己匹配，求得next数组。next数组中储存的是这个字符串前缀和后缀中相同字符串的最长长度。

next[i]储存的是string中前i+1位字符串前缀和后缀的最长长度。如abadefg，next[2]存的是aba这个字符串前缀和后缀的最长长度。

next数组的计算主要跟模式串有关，与文本串并没有关系，因为，模式串前后公共最长子序列。这样才会让我们跳过大量的重复计算 next数组的主要实现方法有很多，就是要找到前缀后缀最长公共子序列的长度 比如：
ababa：
模式串的各个子串：前缀：后缀：最大公共元素长度
a 0
ab a b 0
aba a ab a ba 1
abab a ab aba b ab bab 2
ababa a ab aba abab a ba aba baba 3
如上图，next数组中的元素就是 0 0 1 2 3

Next数组的理解

https://blog.csdn.net/buppt/article/details/78531384

时间复杂度：O(m+n)

m和n分别表示str1和str2的长度。

　　举例来说，有一个字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一个字符串"ABCDABD"？

　　许多算法可以完成这个任务，Knuth-Morris-Pratt算法（简称KMP）是最常用的之一。它以三个发明者命名，起头的那个K就是著名科学家Donald Knuth。

　　这种算法不太容易理解，网上有很多解释，但读起来都很费劲。直到读到Jake Boxer的文章，我才真正理解这种算法。下面，我用自己的语言，试图写一篇比较好懂的KMP算法解释。

　　首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。

　　因为B与A不匹配，搜索词再往后移。

　　就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止。

　　接着比较字符串和搜索词的下一个字符，还是相同。

　　直到字符串有一个字符，与搜索词对应的字符不相同为止。

　　这时，最自然的反应是，将搜索词整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

　　一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样就提高了效率。

　　怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。

　　已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。查表可知，最后一个匹配字符B对应的"部分匹配值"为2，因此按照下面的公式算出向后移动的位数：

　　移动位数 = 已匹配的字符数 - 对应的部分匹配值

　　因为 6 - 2 等于4，所以将搜索词向后移动4位。

　　10.

　　因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（"AB"），对应的"部分匹配值"为0。所以，移动位数 = 2 - 0，结果为 2，于是将搜索词向后移2位。

　　11.

　　因为空格与A不匹配，继续后移一位。

　　12.

　　逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 - 2，继续将搜索词向后移动4位。

　　13.

　　逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 - 0，再将搜索词向后移动7位，这里就不再重复了。

　　14.

　　下面介绍《部分匹配表》是如何产生的。

　　首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。

　　15.

　　"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

　　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

　　16.

　　"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。

/**
 * 对 next[i] = next[i - 1] + 1的解释
 * next[4]表示前长度为4的字符串的最大公共前后缀.
 * 此时如果str[next[4]]与str[5]相等，就可知道next[5]=next[4]+1。相等就是公共前后缀的长度再加一
 * a b c d a b
 * next[4]=1 就是b
 */
public class KMP3 {
    public int[] getNext(String str){
        int i = 0;
        int[] next = new int[str.length()];
        next[0] = 0;
        for (i = 1; i < str.length(); i++) {
            if (str.charAt(i) == str.charAt(next[i - 1])) {
                next[i] = next[i - 1] + 1;
            } else {
                next[i] = 0;
            }
        }
        return next;
    }


    public String matchResult(String shortStr, String longStr, int[] next){
        int i = 0;
        int j = 0;
        String result = "unmatch";
        while (i<longStr.length() && j<shortStr.length()){
            if (longStr.charAt(i) == shortStr.charAt(j)){
                i ++;
                j ++;
            }else {
                if (j == 0) {//长的那个往后移动一位，短的那个不需要动
                    i++;
                }else {
                    int m = j - next[j-1];//需回溯的位数，，包含上面的j=1的情况，即已匹配的字符数 - 对应的部分匹配值
                    j = j - m;//设置下一次的起始坐标
                }
            }
        }
        if (j == shortStr.length()){
            result = "match";
        }
        return result;
    }

    public static void main(String[] args) {
        KMP3 kmp3 = new KMP3();
        String a = "aba";
        String b = "ssdfgasdbababa";
        int[] next = kmp3.getNext(a);
        String res = kmp3.matchResult(a, b,next);
        System.out.println("the result is:" + res);
    }
}

http://kb.cnblogs.com/page/176818/

https://blog.csdn.net/christ1750/article/details/51259425

http://www.cnblogs.com/c-cloud/p/3224788.html

https://www.jianshu.com/p/bc39539c1db4