KMP算法简介

最新推荐文章于 2024-10-12 17:27:27 发布

zper

最新推荐文章于 2024-10-12 17:27:27 发布

阅读量1.4k

点赞数 2

分类专栏：算法 java 文章标签：算法 kmp 字符串匹配

本文链接：https://blog.csdn.net/Alpaca12/article/details/51262157

版权

算法同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

java

2 篇文章 0 订阅

订阅专栏

KMP算法，是由Knuth，Morris，Pratt共同提出的模式匹配算法，其对于任何模式和目标序列，都可以在线性时间内完成匹配查找，而不会发生退化，是一个非常优秀的模式匹配算法。本文就对该算法进行基本的介绍，由于水平有限，解释不恰当的地方，欢迎指出谢谢。

在KMP算法中，对于每一个模式串我们会事先计算出模式串的内部匹配信息，在匹配失败时最大的移动模式串，以减少匹配次数。

比如，在简单的一次匹配失败后，我们会想将模式串尽量的右移和主串进行匹配。右移的距离在KMP算法中是如此计算的:在已经匹配的模式串子串中，找出最长的相同的前缀和后缀，然后移动使它们重叠。

KMP算法对于朴素匹配算法的改进是引入了一个跳转表next[]数组。以模式字符串ABABABB为例，其跳转表为：

index	0	1	2	3	4	5	6
substr	A	B	A	B	A	B	B
next	-1	0	0	1	2	3	4

求解过程如下：候选串即为最长的相同的前缀和后缀串
（1）当 j 等于 0 的时候发生不匹配，即模式串第一个字符与主串i位置不匹配，应将i跳过当前位置，从下一个位置和模式串第一个字符继续比较，此时将 next[0] 设置为-1来表示特殊情况；
（2）当 j 等于 1 时发生不匹配，此时匹配的子串 S 为“A”，候选串只能是空串，下次匹配还是从模式串的下标0开始比较，即 next[1] 设为0；
（3）当 j 等于 2 时发生不匹配，此时匹配的子串 S 为“AB”，候选串只能是空串，下次匹配还是从模式串的下标0开始比较，即 next[2] 设为0；
（4）当 j 等于 3 时发生不匹配，此时匹配的子串 S 为“ABA”，候选串为是“A”，因此 next[3] 设为1；
（5）当 j 等于 4 时发生不匹配，此时匹配的子串 S 为“ABAB”，候选串为是“AB”，因此 next[4] 设为2；
（6）当 j 等于 5 时发生不匹配，此时匹配的子串 S 为“ABABA”，候选串为是“ABA”和“A”，选择长度大的子串“ABA”，因此 next[5] 设为3；
（7）当j等于6时发生不匹配，此时匹配的子串 S 为“ABABAB”，候选串为是“ABAB”和“AB”，选择长度大的子串“ABAB”，因此 next[6] 设为4；

为了更进一步的说明next的求解：
再以模式串ababaaababaa为例：
next例子

以主串为ABABCABCABABABBC，模式串为ABABABB为例的匹配过程

index	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
substr	A	B	A	B	C	A	B	C	A	B	A	B	A	B	B	C
one	A	B	A	B	A(2)	B	B
two			A	B	A(0)	B	A	B	B
three						A	B	A(0)	B	A	B	B
four									A	B	A	B	A	B	B

通过模式串的4次移动，完成了对目标串的模式匹配。这里以匹配的第一步为例，当模式串（从0计数）在第4个位置处不匹配，next[4] = 2, 所以从模式串的第2个位置从新与不匹配处比较，得到第二步。当第二步中的不匹配位置的next值0时，表示第一个字符匹配不成功，则i向后移动一个，模式串从头开始匹配，得到第三步。
在整个匹配过程中，无论模式串如何向后滑动，目标串的输入字符都在不会回溯，直到找到模式串，或者遍历整个目标串都没有发现匹配模式为止。

关于求解 next 数组的方法：
如何利用 next[n] 求解 next[n+1]，减少重复计算呢？
求解 next[n+1] 的时候，由上边的分析可知，此时存在两个子串 a 和 b 是匹配的，即模式串中 0 到 k-1 的子串（对应 n 时的前缀）和子串 n-k 到 n-1 （对应 n 时的后缀）是相互匹配的，下面分两种情况求解 next[n+1]:
第一种情况：下标 k 处的字符与 n 处的字符匹配，则 0 到 k 位置的子串与 n-k 到 n 位置的子串匹配（例如 n+1 的情况（k=2）为：ABABA），显然有 next[n+1] = k + 1 = next[n] + 1
第二种情况：下标 k 处的字符与 n 处的字符不匹配，这样我们为了消除将0 到 k的子串与n处的不匹配，需要向前移动到 next[n] 处。假设 next[k] = k’,相当于找到了S串中的这么一对子串0~k’-1 和 n- (k’ - 1) 到n是匹配的，如果 k’ 处字符和 n 处字符匹配，这利用情况 1）中的办法求得 next[n+1] , 否则用同样的办法借助之前求得的 next 数组值来继续处理。（这一部分我也不是很懂？）

Java代码如下：

import java.util.Scanner;
public class KMPOfJava {

    public static void main(String[] args) {
        KMPOfJava kmp = new KMPOfJava();
        Scanner in = new Scanner(System.in);
        String str = "";
        String substr = "";
        int next[];
        while (in.hasNext()){
            str = in.nextLine();
            substr = in.nextLine();
            next = kmp.getNext(substr);
            System.out.println(kmp.KMP(str, substr, next));
            kmp.printNext(next);
        }
    }
    /**
     * 测试用例：
     * 主串：    ABABCABCACBAB
     * 模式串：ABCAC
     * 模式串：ABABAB
     * 模式串：ABABABB
     * 主串：    abbababaaababaa
     * 模式串：ababaaababaa 
     * */
    /** KMP算法 */
    public int KMP(String str, String substr, int next[]){
        int i = 0, j = 0;
        while (i < str.length() && j < substr.length()){
            if (str.charAt(i) == substr.charAt(j)){//匹配
                ++i;
                ++j;
            }else{//不匹配
                j = next[j];//取出next数组对应j处的值
                if (j == -1){//如果为第一个位置
                    j = 0;//从模式串的头部开始比较
                    ++i;//主串后移一个位置
                }
            }
        }
        if (j == substr.length())
            return i - substr.length();
        else return -1;

    }

    /** 得到模式串的next数组 */
    public int[] getNext(String substr){
        int i = 0, j = -1;
        //定义next数组，长度为模式串的长度
        int next[] = new int[substr.length()];
        //设置next初始位置为-1
        next[0] = -1;
        //求解next其他值（当前字符串的最长的相同的前缀和后缀）
        while (i < substr.length() - 1){
            //第一种情况：k处字符与n-k处字符匹配
            if (j == -1 || substr.charAt(i) == substr.charAt(j)){
                ++i;
                ++j;
                next[i] = j;
            }else{//第二种情况：k处字符与n-k处字符不匹配
                j = next[j];
            }
        }
        return next;
    }

    /**打印next函数 */
    public void printNext(int next[]){
        for (int n : next){
            System.out.print(n + " ");
        }
        System.out.println();
    }
}