KMP算法：计算三种next数组

自动AC机

已于 2023-09-09 14:29:10 修改

阅读量1.5k

点赞数 2

文章标签：数据结构

于 2023-09-09 14:28:18 首次发布

本文链接：https://blog.csdn.net/m0_73566014/article/details/132649839

版权

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth、J.H.Morris和V.R.Pratt提出，因此也被称为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现是通过一个next数组实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度为O(m+n)，其中m为模式串的长度，n为主串的长度。相较于暴力算法，KMP算法在处理长字符串时具有更高的效率。

朴素版匹配算法

朴素版字符串匹配算法用两个指针分别指向两个字符串，当匹配成功时同时向后移动，匹配失败让模式串向后移动如下图所示。也就是说开始时匹配的是主串s中1~t.size()如果失败就匹配2~t.size()+1…直到模式串在主串中找到相同的子字符串或指针 i 的下标大于s.size()-t.size()为止。

通过双重循环遍历两个字符串，如果匹配失败就跳出内循环让模式串向右移动。代码的时间复杂度与单循环while一样为O(N*M)。

int Index(string s, string t)
{
	for (int i = 0; i < s.size() - t.size(); i++)
		for (int j = 0; j < t.size(); j++)
		{
			if (s[i + j] != t[j])	break;
			else if (j == t.size() - 1)	return i - t.size();
		}

	return -1;
}

KMP算法

KMP算法的核心是求next数组，next数组可以认为是给字符串加密，后序的匹配相当于解密，两者代码类似。在网络上next数组有三种求法，分别在《数据结构》严蔚敏版、《算法导论》以及手算next值中上遇到，为了方便下文以1~3来区分它们的关系。

第一种next数组求法

首先看下面这个例子（1），当字符串匹配失败时，如果按照朴素版的话，模式串后移且两个指针初始化如（2）所示。但仔细观察模式串可以发现，绿框表示的是两个子字符串是相同的，那么只要将头子字符串直接移到 j 指针之前，那么依然能保证 j 指针前的字符串是匹配度如（3）所示。对照两者的区别可以发现，其中 i 指针是保持不变的，j 指针通过回溯去寻找相同的首字符串，通过这种思想做到了主串不回溯，时间复杂度可以大幅度降低至O(N+M)。

对于如何让指针回溯的适合的位置，需要一个辅助数组next，next存放的是两字符串匹配时发生错误后指针 j 跳转的位置也就是态（1）转移到状态（3）。在计算next值之前，首先需要默认模式串从数组下标1开始存储，同样的next数组与存储数组相对应也是从1开始计算赋值为0。因为第一个字符如果匹配失败j指着跳转到0出也相当于模式串右移，下标0是用来判断没有匹配到的字符。如上模式串中的第一个C，虽然没有首字符串与它匹配，但是依然需要对它进行赋值，以便指针 j 匹配失败后制动到第一个字符的位置。匹配代码如下所示。

void get_next()
{
    for (int l = 0, r = 1; r < n;)
    {
        if (l == 0 || s[r] == s[l])
        {
            l ++, r ++;
            ne[r] = l;
        }
        else    l = ne[l];
    }
}

根据上述代码模拟出模式串求next数组的过程，这个过程类似于模式串自己对自己进行KMP匹配，R指针之前是的next值都已经求出来了，因此右指针R指向的字符即使找不到匹配的字符，也可以让左指针回到0处赋值。

--------------------------------------------------------PPT画不下了------------------------------------------------------

最后模式串和主串匹配的代码和过程如下所示，按照《数据结构》严蔚敏版的代码，当发现匹配成功后就直接结束，但主串中可能存在多个模式串，本代码为修改并测试AC，题目要求返回值从0开始因此参数-1。当模式串匹配完成后，LR指针都指向了字符串外，因此如果需要在此进行匹配序列，那么两个指针都需要回到字符串末字符，让模式串根据next值回溯。

void index_KMP()
{
    int l = 1, r = 1;
    while (r <= m)
    {
        if (l == 0 || s[l] == t[r]) l ++, r ++;
        else    l = ne[l];
        
        if (l > n)
        {
            printf("%d ", r - n - 1);
            l --, r --;
            l = ne[l];
        }
    }
}

由于之前的样例参考《数据结构》，主串只存在一个模式串，因此直击拷贝书上的匹配过程，完整代码在最后。

第二种next数组求法

第一种next数组是存储回溯位置，在《算法导论》中提供了另一种next求法，next数组中存储的是最大的首字符串长度。如下代码所示，同样的从下标1开始存储，0为没有匹配字符，这里比较的是L+1和R的关系，当L+1与R不匹配返回让L继续回溯。当回溯完后还需要让L+1和R进行比较，因为可能原本字符匹配失败，但在回溯后匹配成功了。

void get_next()
{
    for (int l = 0, r = 2; r <= n; r ++ )
    {
        while (l != 0 && s[l + 1] != s[r])    l = ne[l];
        if (s[l + 1] == s[r])    l ++;
        ne[r] = l;
    }
}

同样的对模式串进行模拟这里就不在赘述了，如下图所示。

由于第二种KMP算法从始至终比较的都是L+1，回溯的是L，因此即使两个字符串匹配完成后，L和R指针依然指向两个字符串末字符，因此没必要确定位置，直接让L进行回溯即可。至于匹配过程，与上述匹配大同小异，需要额外注意L+1指针。

void index_KMP()
{
    for (int l = 0, r = 1; r <= m; r ++ )    //m为主串t的长度
    {
        while (l != 0 && s[l + 1] != t[r])  l = ne[l];
        if (s[l + 1] == t[r]) l ++;
        if (l == n)    //可能存在多匹配成功
        {
            printf("%d ", r - n);
            l = ne[l];
        }
    }
}

第三种next数组求法

这种在做题目是遇到需要手算next值，只要让第一种方式求出来的next值每一个都减1即可。

来自2024王道数据结构题P115第6题：

串“ababaaababaa”的next数组为（）

A、-1,0,1,2,3,4,5,6,7,8,8,8 B、-1,0,1,0,1,0,0,0,0,1,0,1

C、-1,0,0,1,2,3,1,1,2,3,4,5 D、-1,0,1,2,-1,0,1,0,1,2,1,1,2,3

按照第一种next数组求法结果为0 1 1 2 3 4 2 2 3 4 5 6，让每一个数都-1正好为答案：C

优化KMP算法

在处理一些特殊的字符时，KMP算法还可以继续优化。如下案例，当模式串匹配遇到失败时，按照第一种匹配使得模式串后移一位。原本b！=a，在回溯后依然是b！=a……如果按照nextval数组，可以做到一步到位。

与原先的求next数组一样，nextval代码进行了两次比较，让后序的字符下标等于最初的下标，也就是上述的下标2~4全部都等于下标1的值。

void get_nextval()
{
	for (int l = 0, r = 1; r < n;)
	{
		if (l == 0 || s[l] == s[r])
		{
			l++, r++;
			if (s[l] != s[r])	nextval[r] = l;
			else nextval[r] = nextval[l];
		}
		else	l = nextval[l];
	}
}

这个过程类似于并查集的路径压缩，在并查集里，两个元素是否在同一个集合只要找是否有公共祖先，因此将路径全都压缩至1，而nextval中第二次比较也类似于这一步的路径压缩。

前两者KMP算法AC代码

第一种KMP算法完整代码

#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 1000010;

int n, m;
char s[N], t[N];
int ne[N];

void get_next()
{
    for (int l = 0, r = 1; r < n;)
    {
        if (l == 0 || s[r] == s[l])
        {
            l ++, r ++;
            ne[r] = l;
        }
        else    l = ne[l];
    }
}

void index_KMP()
{
    int l = 1, r = 1;
    while (r <= m)
    {
        if (l == 0 || s[l] == t[r]) l ++, r ++;
        else    l = ne[l];
        
        if (l > n)
        {
            printf("%d ", r - n - 1);
            l --, r --;
            l = ne[l];
        }
    }
}

int main()
{
    cin >> n >> s + 1 >> m >> t + 1;
    
    get_next();
    index_KMP();
    
    return 0;
}

第二种KMP算法完整代码

#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 1000010;

int n, m;
char s[N], t[N];
int ne[N];

void get_next()
{
    for (int l = 0, r = 2; r <= n; r ++ )  //遍历匹配字符串
    {
        while (l != 0 && s[l + 1] != s[r])    l = ne[l];
        if (s[l + 1] == s[r])    l ++;
        ne[r] = l;
    }
}

void index_KMP()
{
    for (int l = 0, r = 1; r <= m; r ++ )
    {
        while (l != 0 && s[l + 1] != t[r])  l = ne[l];
        if (s[l + 1] == t[r]) l ++;
        if (l == n)
        {
            printf("%d ", r - n);
            l = ne[l];
        }
    }
}

int main()
{
    cin >> n >> s + 1 >> m >> t + 1;
    
    get_next();
    index_KMP();
    
    return 0;
}

自动AC机

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
KMP算法：计算三种next数组

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth、J.H.Morris和V.R.Pratt提出，因此也被称为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现是通过一个next数组实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度为O(m+n)，其中m为模式串的长度，n为主串的长度。相较于暴力算法，KMP算法在处理长字符串时具有更高的效率。
复制链接

扫一扫