关于 KMP 算法的个人理解(附 Java 实现代码)

为什么会提出 KMP 算法

为了解决传统的朴素算法匹配字符串的低效

为什么朴素算法会低效

传统的朴素算法在匹配字符串失败的时候,主串和模式串都要回溯,主串回溯到匹配起始位置加1, 模式串回溯到第一个字符,从头开始匹配,这样会产生很多不必要的回溯,所以朴素算法低效。时间复杂度为O( (n - m +1)* m),即O(n * m)。

KMP 算法的思想

既然朴素算法会产生不必要的回溯,那么就要想办法消除这些不必要的回溯,首先当匹配失败的时候,主串不可以回溯,然后通过修改模式串的当前指针指向的位置,让其尽量移动到有效的位置。那么怎么才能得到这个有效的位置呢我们可以通过分析模式串的自身结构,判断其自身前后是否有重复的子串,然后根据最长重复子串的长度(即模式串前缀和后缀交集的长度)来决定模式串回溯的位置。然后通过一个 next 数组来保存这些信息,所以重点是求出这个 next 数组。

怎么求得 next 数组
  • 令 next 【0】= 0;
  • 然后遍历模式串,令 i 指针始终指向 后缀字符串的最后一个字符,j 指针始终指向前缀字符串的第一个字符。
  • 判断 i 和 j 指向的字符是否相等,如果相等,则next【i】= j,同时 指针 i 和 j 均后移一位,如果不相等,则让 j 指针不断回溯,直到 i 和 j 指向的字符相等或者 j 指向模式串的第一个位置。
  • 遍历完模式串后,即可以得到 next 数组。

KMP 算法的时间复杂度为O(n + m),空间复杂度为O(m),其中 n 是主串长度,m 是 模式串长度

Java 代码实现
package com.wuyi.notecode;

public class KMP {

    private int[] next;

    public int KMP(String T, String P){
        // 先构造 next 数组
        createNext(P);

        for(int i = 0, j = 0; i < T.length();){
            if (j == P.length() - 1)
                return i - j;

            if (j == 0 || T.charAt(i) == P.charAt(j)){
                i++;
                j++;
            } else {
                j = next[j];
            }
        }
        return -1;
    }

    private void createNext(String P) {
        next = new int[P.length()];
        next[0] = 0;

        for (int i = 1, j = 0;i < P.length();){
            if (j == 0 || P.charAt(i - 1) == P.charAt(j - 1)){
                //j - 1 代表前缀的最后一个索引,i - 1 代表后缀的最后一个索引
                next[i] = j;
                i++;
                j++;
            } else {
                // 若字符不相等,则 j 值回溯
                j = next[j];
            }
        }
    }

    public static void main(String[] args) {
        KMP kmp = new KMP();
        int res = kmp.KMP("baabcabxaababaaabaab","ababaaaba");
        for (int a : kmp.next){
            System.out.print(a + " ");
        }
        System.out.println("\nres:" + res);
    }
}

KMP 算法的改进

其实原始的 KMP 算法还是存在缺陷的,比如模式串存在连续多位相等的字符时,需要通过多次回溯才能来到有效的匹配位置,那么我们可以将其改进为通过一次回溯就来到有效的匹配位置。

在计算 next 值的同时,如果 a 字符与 next [i] 值指向的 b字符相等,则该 a 的 next [i] 就指向 b 的 next [i] 值,如果不等,则该 a 的 next [i] 值就是它自己的 next [i] 值。

在这里插入图片描述
在这里插入图片描述

package com.wuyi.notecode;

public class KMP {

    private int[] next;

    public int KMP(String T, String P){
        // 先构造 next 数组
        createNext(P);

        for(int i = 0, j = 0; i < T.length();){
            if (j == P.length() - 1)
                return i - j;

            if (j == 0 || T.charAt(i) == P.charAt(j)){
                i++;
                j++;
            } else {
                j = next[j];
            }
        }
        return -1;
    }

    private void createNext(String P) {
        next = new int[P.length()];
        next[0] = 0;

        for (int i = 1, j = 0;i < P.length();){
            if (j == 0 || P.charAt(i - 1) == P.charAt(j - 1)){
                //j - 1 代表前缀的最后一个索引,i - 1 代表后缀的最后一个索引
                //next[i] = j;
                if (P.charAt(i) != P.charAt(j))
                    next[i] = j;
                else
                    next[i] = next[j];
                i++;
                j++;
            } else {
                // 若字符不相等,则 j 值回溯
                j = next[j];
            }
        }
    }

    public static void main(String[] args) {
        KMP kmp = new KMP();
        int res = kmp.KMP("baabcabxaababaaabaab","abaaba");
        for (int a : kmp.next){
            System.out.print(a + " ");
        }
        System.out.println("\nres:" + res);
    }
}


  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值