KMP算法

最新推荐文章于 2022-10-14 14:52:17 发布

fireflylane

最新推荐文章于 2022-10-14 14:52:17 发布

阅读量153

点赞数

分类专栏：白书课内拓展文章标签： KMP算法白书

本文链接：https://blog.csdn.net/fireflylane/article/details/83005071

版权

课内拓展同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

白书

2 篇文章 0 订阅

订阅专栏

昨天的计算机组成原理课上老师讲了一个匹配字符串(pattern)的状态机原理，也是上学期数字逻辑课补充介绍的内容，老师建议我们回去用switch-case实现以下这个自动机。我看着这个状态机的原理和KMP算法一模一样，于是下来查了一下KMP算法的具体实现，略有心得，记录一下。

如上图是一个匹配10110子串自动机的图示，下面来简单讲解一下这个自动机的跳转流程。

我们的用A、B、C、D、E五个字母分别表示未匹配任何字符、已匹配子串"1"、已匹配子串"10"、已匹配子串"101"、已匹配子串"1011"五个状态。当处于E状态时，如果匹配到最后一个字符，我们输出1，并把状态转移至状态C，即已匹配子串"10"的状态，因为我们这个自动机是支持子串重叠的，而待匹配子串"10110"的最长公共前后缀为"10"，所以将状态转移至C。

我们从A出发，如果下一个匹配到的字符是0，则仍旧处于状态A，否则就转移至状态B，以此类推，根据图示可以很方便得到自动机状态之间的转换。而为什么这么跳转，跳转遵循什么样的规则，这里稍作解释：比如现在我们处于状态C，即已匹配了子串"10"，这是再从输入字符串中紧接着读取一位，如果读入的是'1'，则我们匹配到了子串"101"，转移至状态D，如果读入的是'0'，则我们匹配到了子串"100"这不符合我们子串的要求，所以我们需要"回退状态"，这里我们遵循的原则是回退尽量少的状态，减少重复工作。所以我们先将状态回退到B，相应的匹配到的子串为"00"，很明显，B状态要求我们匹配到的第一个字符是'1'，所以我们还需要回退到A，相应的匹配到的子串为"0"，而这并不满足A状态转B状态的转移规则，所以仍旧停留在A状态，而匹配到的子串为空，这时我们才从输入中读入下一位字符，重新开始匹配。类似的所有的回退都是按照这个原则。

KMP算法

上面讲到的自动机匹配字符串的过程实际上是和KMP算法匹配字符串的过程是一致的。这里我直接贴上一篇觉得写得还算不错的博文KMP算法最浅显理解——一看就明白。接下来我要重点讲解一下next数组求解的一些理解。

我认为这个next数组求解的过程和最长公共子序列（附图解连接）的求解即为相似，都用到了动态规划的思想，都是字符串匹配过程中一个个字符的推进，只不过next数组求解过程中多了一个匹配失败后状态回溯的过程。代码如下：

void cal_next(char *str, int *next, int len)
{
    next[0] = -1;//next[0]初始化为-1，-1表示不存在相同的最大前缀和最大后缀
    int k = -1;//k初始化为-1
    for (int q = 1; q <= len-1; q++)
    {
        while (k > -1 && str[k + 1] != str[q])//如果下一个不同，那么k就变成next[k]，注意next[k]是小于k的，无论k取任何值。
        {
            k = next[k];//往前回溯
        }
        if (str[k + 1] == str[q])//如果相同，k++
        {
            k = k + 1;
        }
        next[q] = k;//这个是把算的k的值（就是相同的最大前缀和最大后缀长）赋给next[q](此处k是虚指，k+1才是真正的公共长度，
                    //这里记录k值只是为了方便在数组中跳转，而公共长度k+1和k(最后一个字符)有固定关系，所以采用这个技巧。
    }
}

上面代码中，q表示从头开始从匹配字符串(pattern)中截取了q+1长度的子串，q指向最后一个字符，也表示后缀子串中的最后一个字符，k表示该子串中前后缀最长的公共子串，也表示前缀子串的最后一个字符（特别注意k的双义性）。明白了这两个变量的定义后代码就比较容易理解了。

我们先不看for循环中while循环的状态回溯过程，代码的意思就变为：固定for循环中的变量q为m，表示我们从pattern开头截取了子串str[0-m]；假设对于子串str[0~m-1]，我们已经求得的最长公共前后缀长度为k+1(这里不用k表示最长公共子串的长度而怪异的采用k+1主要为了和数组的下标一一对应起来，方便状态的跳转和存储，读者可以根据习惯自行修改)，其中str[0-k]和str[m-k-1~m-1]分别表示相同的前缀和后缀子串。在str[0~m-1]的基础上我们来看str[0-m]，分别将前后缀指针k和q往后移至数组中k+1和m位置，表示开始比较这两处的字符是否相同，如果str[k+1] == str[q=m]则我们将最长公共前后缀长度加1，由于k的双义性，这个加1使得我们同时将前缀字符串的指针向后移动1位指向了公共前缀字符串的最后一个字符。然后我们用next[m]将k值存储下来(为什么不存储公共前后缀字符串长度k+1请参见代码注释)，就求得了str[0-m]的最大公共前后缀长度。（这种在将字符串划分成一个个字符，在一个问题的结果上加上一个字符(递进一步)变成另一个更大规模的问题的结果，即为动态规划的思想，是不是像极了LCS问题？）

接下来我们加入状态回溯过程，如果我们k+1和m位置两处的字符不相同，假设p1=k+1,p2=m记录原来的状态，然后开始回溯：我们使用next指针找往前找一个状态k=k-1(先这样比较好理解)，即将前缀子串的指针像前退一个位置，由于后缀子串的第一个字符的位置m-k-1是和k相关的，所以此时我们的后缀子串的第一个字符位置向后移动了一个位置，即回到了前一个状态。这时读者可能会问：为什么能保证前缀str[0~p1-1]和str[p2-p1+2~p2-1]的子串也是相同的呢？这就是我们next数组帮我们做的时，如果子串不相同，它会再向上回溯一个状态，直至找到一个状态使得前后缀子串相同，然后我们从这个状态开始检查能不能跳转到下一个状态，而next数组实际上就是记录了使得前后缀子串相同的前缀子串的最后一个字符的位置（而且该位置是满足条件的离当前状态最近的状态，回溯状态最少，这样保证了我们不会漏解），所以我们只要一步就完成了本该多步才能实现的跳转，实现了时间复杂度的降低。当然了可能我们回溯到的那个状态还是不能匹配到正确的字符串，我们就继续往前回溯，直至回溯到起点或者找到一个可以状态向后转移的回溯点，这就是我们的while循环。

以上就是这段代码的全过程，读者可以结合博主开头给出的那幅图一起理解。

计算next数组的过程和KMP算法利用next数组匹配字符串的过程一模一样，理解了next数组的求解，就相当于理解了KMP算法，这里不再赘述。

ps：如果读者一开始不知道KMP算法的流程，强烈建议读者给出的KMP算法详解的博文链接里的流程图后再看本篇博文关键代码的解释过程，可能会有一定的帮助。（博主后来才知道白书中讲解了KMP算法，写这篇博文之前并未看过，以后看过这部分内容后再来更新~）

fireflylane

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法

昨天的计算机组成原理课上老师讲了一个匹配字符串(pattern)的状态机原理，也是上学期数字逻辑课补充介绍的内容，老师建议我们回去用switch-case实现以下这个自动机。我看着这个状态机的原理和KMP算法一模一样，于是下来查了一下KMP算法的具体实现，略有心得，记录一下。如上图是一个匹配10110子串自动机的图示，下面来简单讲解一下这个自动机的跳转流程。我们的用A、B、C、D、...
复制链接

扫一扫