学习笔记（二）：KMP算法

最新推荐文章于 2023-10-14 12:55:15 发布

m0_60013530

最新推荐文章于 2023-10-14 12:55:15 发布

阅读量213

点赞数

文章标签： 1024程序员节算法 c++

本文链接：https://blog.csdn.net/m0_60013530/article/details/120933798

版权

Knuth-Morris-Pratt字符串查找算法，简称为“KMP算法”，常用于在一个文本串S中查找一个模式串P的出现位置。

一、算法流程

假设S匹配到i位置，P匹配到j位置：

1.如果j == -1, 或S[i] == P[j], 则i++, j++, 匹配下一个字符；

2.如果j != -1, 或S[i] != P[j], 则视为匹配失败，但相较于传统算法而言，KMP算法不需要回溯S, 只需要回溯P。也就是说，i不变，j = next[j]。对于next数组的含义，将在下一章说明。

代码如下：

int KMP(char * s, char * p){
    int i = 0,j = 0;
    int slen = strlen(s);
    int plen = strlen(p);
    while(i < slen && j < plen){
        if(j == -1 || s[i] == p[j]){
            i++, j++;
        }    
        else{
            j = next[j];
        }
    }    
    if(j == plen)
        return i - j;
    else
        return -1;

}

二、对于next数组的解释

如果next[j] = k(k > 0), 则代表j之前的字符串中有最大长度为k的相同前缀后缀。

如果k为0或者-1，则代表j将退回P的开头。

1.前缀后缀的最长公共元素长度

eg.对于字符串"ABCDAB", 最长公共元素长度为2：

前缀：A, AB, ABC, ABCD, ABCDA;

后缀：B, AB, DAB, CDAB, BCDAB;

在前缀和后缀中，可以看见最长的公共元素是AB，所以长度为2.

2.next数组的含义

当模式串与要匹配的字符串失配时，按理说，S中匹配的位置要退回一开始匹配的位置，而P的位置则要退回第一个位置从头开始，这样就带来了很多重复的无效匹配。KMP算法的改进就体现在这里：失配时，next数组会告诉你模式串应该退回到哪里，而不是全都从头开始，并且这样就不需要回溯S中要匹配的位置了。

3.求next数组的方式

next数组考虑的是将除当前字符外的最长相同前缀后缀，所以要对本章第一节中的方式求出来的结果进行处理，处理方式为将结果--，将初值赋值为-1.

求next数组是以递归的方式进行的。如果已知next[0]到next[j]的值，且假设next[j] = k, 则求解next[j+1]的方式如下：

1.如果P[k] == P[j], 则next[j + 1] = next[j] + 1 = k + 1;

2.如果P[k] != P[j], 则进行进一步判定：如果P[next[k]] == P[j], 则next[j + 1] = next[k] + 1,如果还是不相等，那么继续令k = next[k]递归寻找。

代码如下：

void get_next(char * p, int next[]){
    int plen = strlen(p);
    next[0] = -1;
    int k = -1, j = 0;
    while(j < plen - 1)
    {
        if(k == -1 || p[j] == p[k]){
            ++j,++k;
            next[j] = k;
        }
        else{
            k = next[k];
        }
    } 
}

三、例题（洛谷P4391 无线传输）

题目描述

给你一个字符串 s1，它是由某个字符串 s2 不断自我连接形成的。但是字符串 s2 是不确定的，现在只想知道它的最短长度是多少。

输入格式

第一行一个整数 L，表示给出字符串的长度。

第二行给出字符串 s1 的一个子串，全由小写字母组成。

输出格式

仅一行，表示 s2 的最短长度。

1.题目分析

首先给出结论：ans = n - next[n]。下面给与证明：

由样例我们可以看到，输入的字符串是若干重复字符串的子串，也就是说，输入的字符串可以由一下三个部分组成：

1）左边多出的部分，设这部分为x;

2）中间由若干重复的a组成，假设重复了p次，设这部分为p * a;

3）右边多出的部分，设这部分为y;

其中，x是a的前缀，y是a的后缀。

因为字符串从0开始，所以我们求next[n]的时候直接用上面的例子中求最大前缀后缀长度的方法就行。

最大的相同前缀后缀为：x + (p - 1) * a + y。

那么，因为 n = x + p * a + y, 与这个最大前缀后缀相减，结果就是a,答案也就出来了。

2.AC代码

# include <iostream>
# include <cstring>
using namespace std;

int l,n[1000050];
char ss[1000050];

void get_next(char *p)
{
	int plen = l,k = -1,j = 0;
	n[0] = -1;
	while (j <= plen - 1)
	{
		if (k == -1 || p[j] == p[k])
		{
			++k, ++j;
			n[j] = k;
		}
		else
		{
			k = n[k];
		}
	}
}

int main(void)
{
	cin >> l >> ss;
	get_next(ss);
	cout << l - n[l] << endl;

	return 0;
}

四、总结

KMP算法是一种非常简洁而优美的算法，短短的几行代码看似容易，但其实理解起来还是有难度的。而当你理顺了背后的逻辑关系之后，这几行代码又仿佛水落石出，不证自明，这种“看山还是山”的感觉确实有趣。

m0_60013530

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记（二）：KMP算法

Knuth-Morris-Pratt字符串查找算法，简称为“KMP算法”，常用于在一个文本串S中查找一个模式串P的出现位置。一、算法流程假设S匹配到i位置，P匹配到j位置：1.如果j == -1, 或S[i] == P[j], 则i++, j++, 匹配下一个字符；2.如果j != -1, 或S[i] != P[j], 则视为匹配失败，但相较于传统算法而言，KMP算法不需要回溯S, 只需要回溯P。也就是说，i不变，j = next[j]。对于next数组的含义，将在下一章说明...
复制链接

扫一扫