KMP算法和KMP算法中next数组的讲解

最新推荐文章于 2023-04-05 17:06:39 发布

Moressette

最新推荐文章于 2023-04-05 17:06:39 发布

阅读量576

点赞数 1

分类专栏： KMP 文章标签： kmp ACM 算法

本文链接：https://blog.csdn.net/wangcong9614/article/details/47100801

版权

KMP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

网上看了许多KMP算法的讲解，看来看去也是似懂非懂。只是看懂了正常情况下，字符串匹配逐个去找，会很慢，而KMP就是在一次匹配失败后，尽可能的往后移，去跳过那些没用的逐个查找，来达到字符串的快速匹配。但是看来看去只是明白个大概。尤其是对next数组很不理解，其实KMP中求next数组的这个函数就是个模板，每次照着敲一遍就ok了，但是我们如果想真正理解KMP，next数组函数并不需要逐行理解，但是我们一定要知道它是怎么来的，它是用来干嘛的。接下来找到了一篇很好的讲解，分享给大家，反正看完这个我是懂了！！！！

首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。

因为B与A不匹配，搜索词再往后移。

就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止。

接着比较字符串和搜索词的下一个字符，还是相同。

直到字符串有一个字符，与搜索词对应的字符不相同为止。

这时，最自然的反应是，将搜索词整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它尽可能的向后移，跳过中间无用的比较，这样就提高了效率。

怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。这里所说的部分匹配表，也就是我们说的next数组啦。

已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。查表可知，最后一个匹配字符B对应的"部分匹配值"为2，因此按照下面的公式算出向后移动的位数：

　　移动位数 = 已匹配的字符数 - 对应的部分匹配值(也就是next数组所对应的值)

因为 6 - 2 等于4，所以将搜索词向后移动4位。

10.

因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（"AB"），对应的"部分匹配值"(next数组对应的值)为0。所以，移动位数 = 2 - 0，结果为 2，于是将搜索词向后移2位。

11.

因为空格与A不匹配，继续后移一位。

12.

逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 - 2，继续将搜索词向后移动4位。

13.

逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 - 0，再将搜索词向后移动7位，这里就不再重复了。

14.

下面介绍《部分匹配表》即next数组是如何产生的。

首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。

15.

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

　　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

那么我们再看上图，对应的就是0 0 0 0 1 2 0了，也就是我们的next数组。

16.

"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。

接下来附一个求next数组的函数。

void getNext()
{
    int i,j;
    i=0;
    j=-1;
    next[i]=j;//next数组是在上面自己开的一个数组。大小根据需要匹配的模式串长度，稍微大一点
    while(i<m)  //m是需要匹配的子串，即模式串的长度。
    {
        if(j==-1||b[i]==b[j])
        {
            i++;
            j++;
            next[i]=j;
        }
        else
            j=next[j];
    }
    return ;
}

附KMP 字典树的学习资源、课件： KMP 字典树学习资料

一道裸KMP题：KMP HDU1711 我们可以根据实际题目来更好的理解KMP
/*文章部分转自http://www.ruanyifeng.com/blog/ */

Moressette

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法和KMP算法中next数组的讲解

网上看了许多KMP算法的讲解，看来看去也是似懂非懂。只是看懂了正常情况下，字符串匹配逐个去找，会很慢，而KMP就是在一次匹配失败后，尽可能的往后移，去跳过那些没用的逐个查找，来达到字符串的快速匹配。但是看来看去只是明白个大概。尤其是对next数组很不理解，其实KMP中求next数组的这个函数就是个模板，每次照着敲一遍就ok了，但是我们如果想真正理解KMP，next数组函数并不需要逐行理解，但是我们
复制链接

扫一扫