学习笔记(二):KMP算法

       Knuth-Morris-Pratt字符串查找算法,简称为“KMP算法”,常用于在一个文本串S中查找一个模式串P的出现位置。

一、算法流程

假设S匹配到i位置,P匹配到j位置:

1.如果j == -1, 或S[i] == P[j], 则i++, j++, 匹配下一个字符;

2.如果j != -1, 或S[i] != P[j], 则视为匹配失败,但相较于传统算法而言,KMP算法不需要回溯S, 只需要回溯P。也就是说,i不变,j = next[j]。 对于next数组的含义,将在下一章说明。

代码如下:

int KMP(char * s, char * p){
    int i = 0,j = 0;
    int slen = strlen(s);
    int plen = strlen(p);
    while(i < slen && j < plen){
        if(j == -1 || s[i] == p[j]){
            i++, j++;
        }    
        else{
            j = next[j];
        }
    }    
    if(j == plen)
        return i - j;
    else
        return -1;

}

二、对于next数组的解释

如果next[j] = k(k > 0), 则代表j之前的字符串中有最大长度为k的相同前缀后缀。

如果k为0或者-1,则代表j将退回P的开头。

1.前缀后缀的最长公共元素长度

eg.对于字符串"ABCDAB", 最长公共元素长度为2:

前缀:A, AB, ABC, ABCD, ABCDA;

后缀:B, AB, DAB, CDAB, BCDAB;

在前缀和后缀中,可以看见最长的公共元素是AB,所以长度为2.

2.next数组的含义

当模式串与要匹配的字符串失配时,按理说,S中匹配的位置要退回一开始匹配的位置,而P的位置则要退回第一个位置从头开始,这样就带来了很多重复的无效匹配。KMP算法的改进就体现在这里:失配时,next数组会告诉你模式串应该退回到哪里,而不是全都从头开始,并且这样就不需要回溯S中要匹配的位置了。

3.求next数组的方式

next数组考虑的是将除当前字符外的最长相同前缀后缀,所以要对本章第一节中的方式求出来的结果进行处理,处理方式为将结果--,将初值赋值为-1.

求next数组是以递归的方式进行的。如果已知next[0]到next[j]的值,且假设next[j] = k, 则求解next[j+1]的方式如下:

1.如果P[k] == P[j], 则next[j + 1] = next[j] + 1 = k + 1;

2.如果P[k] != P[j], 则进行进一步判定:如果P[next[k]] == P[j], 则next[j + 1] =  next[k] + 1,如果还是不相等,那么继续令k = next[k]递归寻找。

代码如下:

void get_next(char * p, int next[]){
    int plen = strlen(p);
    next[0] = -1;
    int k = -1, j = 0;
    while(j < plen - 1)
    {
        if(k == -1 || p[j] == p[k]){
            ++j,++k;
            next[j] = k;
        }
        else{
            k = next[k];
        }
    } 
}

三、例题(洛谷P4391 无线传输)

题目描述

给你一个字符串 s1​,它是由某个字符串 s2​ 不断自我连接形成的。但是字符串 s2​ 是不确定的,现在只想知道它的最短长度是多少。

输入格式

第一行一个整数 L,表示给出字符串的长度。

第二行给出字符串 s1​ 的一个子串,全由小写字母组成。

输出格式

仅一行,表示 s2​ 的最短长度。

1.题目分析

首先给出结论:ans = n - next[n]。下面给与证明:

由样例我们可以看到,输入的字符串是若干重复字符串的子串,也就是说,输入的字符串可以由一下三个部分组成:

1)左边多出的部分,设这部分为x;

2)中间由若干重复的a组成,假设重复了p次,设这部分为p * a;

3)右边多出的部分,设这部分为y;

其中,x是a的前缀,y是a的后缀。

因为字符串从0开始,所以我们求next[n]的时候直接用上面的例子中求最大前缀后缀长度的方法就行。

最大的相同前缀后缀为:x + (p - 1) * a + y。

那么,因为 n = x + p * a + y, 与这个最大前缀后缀相减,结果就是a,答案也就出来了。

2.AC代码

# include <iostream>
# include <cstring>
using namespace std;

int l,n[1000050];
char ss[1000050];

void get_next(char *p)
{
	int plen = l,k = -1,j = 0;
	n[0] = -1;
	while (j <= plen - 1)
	{
		if (k == -1 || p[j] == p[k])
		{
			++k, ++j;
			n[j] = k;
		}
		else
		{
			k = n[k];
		}
	}
}

int main(void)
{
	cin >> l >> ss;
	get_next(ss);
	cout << l - n[l] << endl;

	return 0;
}

四、总结

KMP算法是一种非常简洁而优美的算法,短短的几行代码看似容易,但其实理解起来还是有难度的。而当你理顺了背后的逻辑关系之后,这几行代码又仿佛水落石出,不证自明,这种“看山还是山”的感觉确实有趣。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值