字符串匹配算法KMP原理

xiaoniuxqq

已于 2023-10-12 18:16:19 修改

阅读量164

点赞数

文章标签：服务器运维

于 2023-10-12 16:50:38 首次发布

本文链接：https://blog.csdn.net/u011649691/article/details/133791089

版权

KMP算法是一种字符串匹配算法，解决从文本串为"ABABDABACDABABCABAB"中查询模式串为"ABABCABAB"位置的一种算法。它是暴力循环匹配（从文本串的第一个字符开始，对模式串进行循环匹配，如果不匹配，文本串下移一个字符，继续跟模式串匹配）的一种优化。

原理：

设置文本串为 ababadeabc，模式串为ababaca，从第一个字符进行匹配：

ababadeabcababaca
ababaca

模式串匹配到ababa下一个字符就无法匹配了：
ababa->d
ababa->c

如果从文本串的第二个字符继续匹配，那么就浪费了已经匹配获得的信息，根据第一步匹配的信息，文本串中的ababa已经和模式串的ababa一致，模式串中的ababa已包含一个关键的跳跃查询信息：

文本串：ababa
模式串：ababa

模式串直接跳跃至：
文本串：ababa
模式串：  ababa

根据跳跃信息，则可直接实现有限范围内的最长匹配，因为根据已有信息是不知道文本串ababa后面是什么，但是知道这么跳跃后可以直接匹配aba三个字符，节省匹配时间。

这个跳跃信息的依据跟文本串无直接关系，跟模式串的公共最长前后缀信息有关：ababaca，长度是7，子串分别是a，ab，aba，abab，ababa，ababac，ababaca，它们的公共最长前后缀分别是0,0,a,ab,aba,0,a。注意上例中已匹配成功的ababa的公共最长前后缀就是aba，就是跳跃后可以直接匹配aba三个字符。

最长公共前后缀是指一个字符串的最长的前缀和后缀，它们是相同的。注意这里的前缀和后缀不能包括整个字符串。

例如，对于字符串"ABAB"：

- 它的前缀有："A", "AB", "ABA", "ABAB"
- 它的后缀有："B", "AB", "BAB", "ABAB"

在这些前缀和后缀中，"AB"是最长的公共前后缀。

以上就是KMP的思想原理，求字符串的各个子串公共最长前后缀长度代码如下：

    public int[] computePrefixFunction(String pattern) {
        int[] prefixFunction = new int[pattern.length()];
        int j = 0;
        for (int i = 1; i < pattern.length(); i++) {
            //如果下一个字符不属于公共前后缀，就需要从上一个公共前后缀的公共前后缀开始找
            while (j > 0 && pattern.charAt(j) != pattern.charAt(i)) {
                j = prefixFunction[j - 1];
            }
            //如果下一个字符属于公共前后缀，就继续往后找
            if (pattern.charAt(j) == pattern.charAt(i)) {
                j++;
            }
            prefixFunction[i] = j;
        }
        return prefixFunction;
    }

例如：模式串ababaca中
i = 4时 ababa 最长公共前后缀 j =3
i = 5时 ababac  j=4时字符串为b i=5字符串为c，最长公共前后缀不能延长了，需要回退计算：
abab
abac
上一个最长公共前后缀是aba，由上观察可知最佳匹配开始路径就是aba的最长公共前后缀a
匹配
ab
ac
结果是不匹配,j=0,继续循环

KMP核心算法实现逻辑如下：

设匹配到文本串的m索引处失败，此时：文本串索引m，模式串索引k=5

     m
ababadeabcababaca
ababaca
     k = 5

根据以上展示的跳跃信息进行跳跃，文本串索引不变，模式串中匹配值ababa，模式串索引=公共最长前后缀长度=3，比较m处('d')和k处('b')字符，发现不匹配，如果匹配则m=m+1,k=k+1，继续进行匹配。

     m
ababadeabcababaca
  ababaca
     k = 3

继续下一次匹配和跳跃，文本串索引不变，模式串中匹配值aba，模式串索引=公共最长前后缀长度=1，比较m处('d')和k处('b')字符，发现不匹配。

     m
ababadeabcababaca
    ababaca
     k = 1

继续下一次匹配跳跃，文本串索引不变，模式串中匹配值1，模式串索引=公共最长前后缀长度=0，比较m处('d')和k处('a')字符，发现不匹配。

     m
ababadeabcababaca
     ababaca
     k = 0

继续下一次匹配，只要k==0，文本串索引就+1继续匹配：

      m = m + 1
ababadeabcababaca
      ababaca
      k = 0

后续循环以上逻辑即可求得结果，代码如下：

    public int KMP(String text, String pattern) {
        int[] prefixFunction = computePrefixFunction(pattern);
        int j = 0;
        for (int i = 0; i < text.length(); i++) {
            while (j > 0 && pattern.charAt(j) != text.charAt(i)) {
                j = prefixFunction[j - 1];
            }
            if (pattern.charAt(j) == text.charAt(i)) {
                j++;
            }
            if (j == pattern.length()) {
                return i - j + 1;  // 返回匹配的起始位置
            }
        }
        return -1;  // 如果没有找到匹配，返回-1
    }