KMP-labuladong笔记

最新推荐文章于 2024-05-03 01:36:44 发布

Better-1

最新推荐文章于 2024-05-03 01:36:44 发布

阅读量285

点赞数

分类专栏：剑指

原文链接：https://mp.weixin.qq.com/s/r9pbkMyFyMAvmkf4QnL-1g

版权

剑指专栏收录该内容

192 篇文章 4 订阅

订阅专栏

参考 https://mp.weixin.qq.com/s/r9pbkMyFyMAvmkf4QnL-1g
模式串pat，文本串txt，KMP 算法是在txt中查找子串pat，如果存在，返回这个子串的起始索引，否则返回 -1。

KMP 算法永不回退txt的指针i，不走回头路（不会重复扫描txt），而是借助dp数组中储存的信息把pat移到正确的位置继续匹配，时间复杂度只需 O(N)，用空间换时间，所以我认为它是一种动态规划算法。

计算这个dp数组，只和pat串有关。意思是说，只要给我个pat，我就能通过这个模式串计算出dp数组，然后你可以给我不同的txt，我都不怕，利用这个dp数组我都能在 O(N) 时间完成字符串匹配。 == dp数组只和模式串有关~~

要的是最长公共前后缀~~ 找前缀和后缀一样的！！！！！！！！！！！！！！！！！！！！！！！！！！

在这里插入图片描述
使用KMP的核心是什么？就是找每一段的最长公共前后缀，求出每段对应的最长公共前后缀长度

下面的图不对劲~还可以追究到当前步
其实右移的步数就是模式串的长度减去最大公共前后缀(这个前后缀包含当前位)
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
记住只是分析模式串，根据txt的不同，来判定要转移到什么状态。

KMP 算法最关键的步骤就是构造这个状态转移图。要确定状态转移的行为，得明确两个变量，一个是当前的匹配状态，另一个是遇到的字符；确定了这两个变量后，就可以知道这个情况下应该转移到哪个状态。

对于一个模式串pat，其总共就有 M 个状态，对于 ASCII 字符，总共不会超过 256 种。所以我们就构造一个数组dp[M][256]来包含所有情况，并且明确dp数组的含义：

dp[j][c] = next
0 <= j < M，代表当前的状态
0 <= c < 256，代表遇到的字符（ASCII 码）
0 <= next <= M，代表下一个状态

dp[4]['A'] = 3 表示：
当前是状态 4，如果遇到字符 A，
pat 应该转移到状态 3

dp[1]['B'] = 2 表示：
当前是状态 1，如果遇到字符 B，
pat 应该转移到状态 2

根据我们这个 dp 数组的定义和刚才状态转移的过程，我们可以先写出 KMP 算法的 search 函数代码：

public int search(String txt) {
    int M = pat.length();
    int N = txt.length();
    // pat 的初始态为 0
    int j = 0;
    for (int i = 0; i < N; i++) {
        // 当前是状态 j，遇到字符 txt[i]，
        // pat 应该转移到哪个状态？
        j = dp[j][txt.charAt(i)];
        // 如果达到终止态，返回匹配开头的索引
        if (j == M) return i - M + 1;
    }
    // 没到达终止态，匹配失败
    return -1;
}

下面讲解：如何通过pat构建这个dp数组？
要确定状态转移的行为，必须明确两个变量，一个是当前的匹配状态，另一个是遇到的字符，而且我们已经根据这个逻辑确定了dp数组的含义，那么构造dp数组的框架就是这样：

for 0 <= j < M: # 状态
    for 0 <= c < 256: # 字符
        dp[j][c] = next

如果遇到的字符c和pat[j]匹配的话，状态就应该向前推进一个，也就是说next = j + 1，我们不妨称这种情况为状态推进：

如何得知在哪个状态重启呢？解答这个问题之前，我们再定义一个名字：影子状态（我编的名字），用变量X表示。所谓影子状态，就是和当前状态具有相同的前缀。

int X # 影子状态
for 0 <= j < M:
    for 0 <= c < 256:
        if c == pat[j]:
            # 状态推进
            dp[j][c] = j + 1
        else: 
            # 状态重启
            # 委托 X 计算重启位置
            dp[j][c] = dp[X][c]

// dp[状态][字符] = 下个状态
dp[j][c] = next表示，当前是状态j，遇到了字符c，应该转移到状态next。

先构建状态转移图，然后进行搜索~~KMP就是通过空间换时间，把

public class KMP {
    private int[][] dp;
    private String pat;

    public KMP(String pat) {
        this.pat = pat;
        int M = pat.length();
        // dp[状态][字符] = 下个状态
        dp = new int[M][256];
        // base case
        dp[0][pat.charAt(0)] = 1;
        // 影子状态 X 初始为 0
        int X = 0;
        // 构建状态转移图（稍改的更紧凑了）
        for (int j = 1; j < M; j++) {
            for (int c = 0; c < 256; c++)
                dp[j][c] = dp[X][c];
            dp[j][pat.charAt(j)] = j + 1;
            // 更新影子状态
            X = dp[X][pat.charAt(j)];
        }
    }

    public int search(String txt) {
        int M = pat.length();
        int N = txt.length();
        // pat 的初始态为 0
        int j = 0;
        for (int i = 0; i < N; i++) {
            // 计算 pat 的下一个状态
            j = dp[j][txt.charAt(i)];
            // 到达终止态，返回结果
            if (j == M) return i - M + 1;
        }
        // 没到达终止态，匹配失败
        return -1;
    }
}

在构建当前状态j的转移方向时，只有字符pat[j]才能使状态推进（dp[j][pat[j]] = j+1）；而对于其他字符只能进行状态回退，应该去请教影子状态X应该回退到哪里（dp[j][other] = dp[X][other]，其中other是除了pat[j]之外所有字符）。

NEXT数组的求法

Good:https://www.jianshu.com/p/a0b1459b7585注意：这里next中表达的1指的就是第一位，也就是a，不是序号1。
位序 1 2 3 4 5 6 7 8 9
模式串 a b a a b c a b c
next值 0 1 1 2 2 3 1 2 3
————————————————
next数组的方法是：
1.第一位的next值为0
2.第二位的next值为1
后面求解每一位的next值时，根据前一位进行比较、前一位的next值的作用，定位串中要比较元素的位置
3.第三位的next值：前一位的模式串为b ,对应的next值为1;将第二位的模式串b与第一位的模式串a进行比较，不相等；则第三位的next值为1(其他情况均为1)
4.第四位的next值：第三位的模式串为a ,对应的next值为1;将第三位的模式串a与第一位的模式串a进行比较，相同，则第四位的next值得为1+1=2
5.第五位的next值：第四位的模式串为a，对应的next值为2;将第四位的模式串a与第二位的模式串b进行比较，不相等；第二位的b对应的next值为1,则将第四位的模式串a与第一位的模式串a进行比较，相同，则第五位的next的值为1+1=2
6.第六位的next值：第五位的模式串为b，对应的next值为2;将第五位的模式串b与第二位的模式中b进行比较，相同，则第六位的next值为2+1=3
7.第七位的next值：第六位的模式串为c，对应的next值为3;将第六位的模式串c与第三位的模式串a进行比较，不相等；第三位的a对应的next值为1，
则将第六位的模式串c与第一位的模式串a进行比较，不相同，则第七位的next值为1(其他情况)
8.第八位的next值：第七位的模式串为a，对应的next值为1;将第七位的模式串a与第一位的模式串a进行比较，相同，则第八位的next值为1+1=2
9.第九位的next值：第八位的模式串为b，对应的next值为2;将第八位的模式串b与第二位的模式串b进行比较，相同，则第九位的next值为2+1=3

Better-1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP-labuladong笔记

参考 https://mp.weixin.qq.com/s/r9pbkMyFyMAvmkf4QnL-1g模式串pat，文本串txt，KMP 算法是在txt中查找子串pat，如果存在，返回这个子串的起始索引，否则返回 -1。KMP 算法永不回退txt的指针i，不走回头路（不会重复扫描txt），而是借助dp数组中储存的信息把pat移到正确的位置继续匹配，时间复杂度只需 O(N)，用空间换时间，所以我认为它是一种动态规划算法。计算这个dp数组，只和pat串有关。意思是说，只要给我个pat，我就能通过这个模式
复制链接

扫一扫