折磨死人的kmp（看毛片）算法中的next数组之民间解析

最新推荐文章于 2020-04-25 16:26:24 发布

Crel_Devi

最新推荐文章于 2020-04-25 16:26:24 发布

阅读量3.2k

点赞数 1

分类专栏： kmp

本文链接：https://blog.csdn.net/Crel_Devi/article/details/80251995

版权

kmp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先我不确定这个方法到底能不能很好的解释给大家，这只是我在理解后的一种自己的思想，鉴于网上很多博客，自己也看了很多，一直处在懵逼状态，包括受到很多人的推崇的博客JULY的博客，虽然很清楚，但是太多了导致自己更加复杂化了这个算法，其实这个算法最难理解的就是next数组的代码段，意思大家都清楚，只是不知道那个next数组的求法，可以说是很巧妙的利用了递归的方法，本来是打算先放弃研究这个算法，早上无意看书然后灵光一现，但还是不够透彻，所以通过博客记录现在对kmp算法的一些不成熟的理解，希望也能帮助一些在此算法上感到吃力的同学们！

下面关于kmp算法的简答理解本人不在做解释直接套用其他博客的方法许多博客在这上面的解释基本一致，只是在next数组上的方面解释的不一致，好下面先贴出kmp算法的理解方法（注下面kmp的算法出自https://segmentfault.com/a/1190000008575379）。

1 >kmp算法：

给定一个主串（以 S 代替）和模式串（以 P 代替），要求找出 P 在 S 中出现的位置，此即串的模式匹配问题。

Knuth-Morris-Pratt 算法（简称 KMP）是解决这一问题的常用算法之一，这个算法是由高德纳（Donald Ervin Knuth）和沃恩·普拉特在1974年构思，同年詹姆斯·H·莫里斯也独立地设计出该算法，最终三人于1977年联合发表。

在继续下面的内容之前，有必要在这里介绍下两个概念：真前缀 和 真后缀。

由上图所得， "真前缀"指除了自身以外，一个字符串的全部头部组合；"真后缀"指除了自身以外，一个字符串的全部尾部组合。（网上很多博客，应该说是几乎所有的博客，也包括我以前写的，都是“前缀”。严格来说，“真前缀”和“前缀”是不同的，既然不同，还是不要混为一谈的好！）

朴素字符串匹配算法

初遇串的模式匹配问题，我们脑海中的第一反应，就是朴素字符串匹配（即所谓的暴力匹配），代码如下：

/* 字符串下标始于 0 */
int NaiveStringSearch(string S, string P)
{
    int i = 0;    // S 的下标
    int j = 0;    // P 的下标
    int s_len = S.size();
    int p_len = P.size();

    while (i < s_len && j < p_len)
    {
        if (S[i] == P[j])  // 若相等，都前进一步
        {
            i++;
            j++;
        }
        else               // 不相等
        {
            i = i - j + 1;
            j = 0;
        }
    }

    if (j == p_len)        // 匹配成功
        return i - j;

    return -1;
}

暴力匹配的时间复杂度为 $O(nm)$，其中 $n$ 为 S 的长度，$m$ 为 P 的长度。很明显，这样的时间复杂度很难满足我们的需求。

接下来进入正题：时间复杂度为 $Θ(n+m)$ 的 KMP 算法。

KMP字符串匹配算法

3.1 算法流程

以下摘自阮一峰的字符串匹配的KMP算法，并作稍微修改。

（1）

首先，主串"BBC ABCDAB ABCDABCDABDE"的第一个字符与模式串"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以模式串后移一位。

（2）

因为B与A又不匹配，模式串再往后移。

（3）

就这样，直到主串有一个字符，与模式串的第一个字符相同为止。

（4）

接着比较主串和模式串的下一个字符，还是相同。

（5）

直到主串有一个字符，与模式串对应的字符不相同为止。

（6）

这时，最自然的反应是，将模式串整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

（7）

一个基本事实是，当空格与D不匹配时，你其实是已经知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，而是继续把它向后移，这样就提高了效率。

下面是我自己想的一个方便下面next的理解字符串：

pmt 就是指当前字符的最长前缀和最长后缀的相同数，与next数组有一点不同会在下面的next数组求法中列出来

	A	D	A	B	A	D	A	D	C	B
PMT	0	0	1	0	1	2	3	2	0	0
next	-1	0	0	1	0	1	2	3	2	0

可以看到next就是将pmt的往后移了一位 next[0]置为1；这里不要细究下面在想为什么

怎么做到这一点呢？可以针对模式串，设置一个跳转数组int next[]，这个数组是怎么计算出来的，后面再介绍，这里只要会用就可以了。

（9）

已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。根据跳转数组可知，不匹配处D的next值为2，因此接下来从模式串下标为2的位置开始匹配。

（10）

因为空格与Ｃ不匹配，C处的next值为0，因此接下来模式串从下标为0处开始匹配。

（11）

因为空格与A不匹配，此处next值为-1，表示模式串的第一个字符就不匹配，那么直接往后移一位。

（12）

逐位比较，直到发现C与D不匹配。于是，下一步从下标为2的地方开始匹配。

（13）

逐位比较，直到模式串的最后一位，发现完全匹配，于是搜索完成。

下面贴出一段代码，鉴于网上有两种代码方式，我贴出来一段我自己能够理解的代码，也与下面的next的代码能够相对应。

int KMP(string S, string P, int next[])
{
    GetNext(P, next);
    int i = 0;  // S 的下标
    int j = 0;  // P 的下标
    int s_len = S.size();
    int p_len = P.size();

    while (i < s_len && j < p_len)
    {
        if (j == -1 || S[i] == P[j])  // P 的第一个字符不匹配或 S[i] == P[j]
        {
            i++;
            j++;
        }
        else
            j = next[j];  // 当前字符匹配失败，进行跳转
    }

    if (j == p_len)  // 匹配成功
        return i - j;
    
    return -1;
}

2 > next数组的解释

下面用到了递归的深度思想，可能下面内容会让你很不理解，所以建议先学一些递归的思想在看此片内容，会好很多。

next数组的求解基于“真前缀”和“真后缀”，即next[i]等于P[0]...P[i - 1]最长的相同真前后缀的长度（请暂时忽视i等于0时的情况，下面会有解释）。我们依旧以上述的表格为例，为了方便阅读，我复制在下方了

	A	D	A	B	A	D	A	D	C
PMT	0	0	1	0	1	2	3	2	0
next	-1	0	0	1	0	1	2	3	2
i	0	1	2	3	4	5	6	7	8

关于pmt表的知识可自行百度，这里不做解释

i = 0，对于模式串的首字符，我们统一为next[0] = -1；
i = 1，前面的字符串为A，其最长相同真前后缀长度为0，即next[1] = 0；
i = 2，前面的字符串为AD，其最长相同真前后缀长度为0，即next[2] = 0；
i = 3，前面的字符串为ADA，其最长相同真前后缀长度为1，即next[3] = 1；
i = 4，前面的字符串为ADAB，其最长相同真前后缀长度为0，即next[4] = 0；
i = 5，前面的字符串为ADABA，其最长相同真前后缀为A，即next[5] = 1；
i = 6，前面的字符串为ADABAD，其最长相同真前后缀为AD，即next[6] = 2；
i = 7，前面的字符串为ADABADA，其最长相同真前后缀长度为ADA，即next[7] = 3。
i = 8, 前面的字符串位ADABADAD,其最长相同真前后缀长度为AD,即 next[ 8 ] = 2;

我们直接从代码分析这个next数组的求法；

/* P 为模式串，下标从 0 开始 */
void GetNext(string P, int next[])
{
    int p_len = P.size();
    int i = 0;   // P 的下标
    int j = -1;  
    next[0] = -1;

    while (i < p_len)
    {
        if (j == -1 || P[i] == P[j])
        {
            i++;
            j++;
            next[i] = j;
        }
        else
            j = next[j];//每当匹配不成功则进行下一次的匹配    }
}

其实很多人就是看不懂j = next[ j ] 的代码段；

假设我们已经知道了next[i] 的值，现在要求next[i + 1]的值；那我们就以i = 7为例现在知道next[i] ( 即next[7] ) = 3;现在要求next[i+1];下面我将通过画图来进行解释：

可能大家看图也不是很懂，大概就是求next[8]时；需先让p[ next[ 3] ] 和p[ i ] 相比较如果相等直接就等于next[ 7 ] + 1;如果不等的话比如说上面的ABAD和ABAB最后一个不等，这时候我们不需把p从头开始匹配而是像kmp算法一样利用next数组的方式移动，只不过这个是利用自己的next，而kmp是利用要求的next数组，这时候我们在让他匹配, 可以知道AD 和AD 正好匹配成功了这时候next[ 8 ] 的值就出来了，可以认为其实next数组的求法也是在利用kmp算法只不过kmp更加独立，而next是自己用自己的next来求；大概就是这样一种解释，本人水平比较低，正在学习中这是自己的一种理解，如有帮助，内心欣慰，如发现错误还望指出，希望大家共同学习，谢谢！

Crel_Devi

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
折磨死人的kmp（看毛片）算法中的next数组之民间解析

首先我不确定这个方法到底能不能很好的解释给大家，这只是我在理解后的一种自己的思想，鉴于网上很多博客，自己也看了很多，一直处在懵逼状态，包括受到很多人的推崇的博客JULY的博客，虽然很清楚，但是太多了导致自己更加复杂化了这个算法，其实这个算法最难理解的就是next数组的代码段，意思大家都清楚，只是不知道那个next数组的求法，可以说是很巧妙的利用了递归的方法，本来是打算先放弃研究这个算法，早上无...
复制链接

扫一扫