学习笔记(二):KMP算法

       Knuth-Morris-Pratt字符串查找算法,简称为“KMP算法”,常用于在一个文本串S中查找一个模式串P的出现位置。

一、算法流程

假设S匹配到i位置,P匹配到j位置:

1.如果j == -1, 或S[i] == P[j], 则i++, j++, 匹配下一个字符;

2.如果j != -1, 或S[i] != P[j], 则视为匹配失败,但相较于传统算法而言,KMP算法不需要回溯S, 只需要回溯P。也就是说,i不变,j = next[j]。 对于next数组的含义,将在下一章说明。

代码如下:

int KMP(char * s, char * p){
    int i = 0,j = 0;
    int slen = strlen(s);
    int plen = strlen(p);
    while(i < slen && j < plen){
        if(j == -1 || s[i] == p[j]){
            i++, j++;
        }    
        else{
            j = next[j];
        }
    }    
    if(j == plen)
        return i - j;
    else
        return -1;

}

二、对于next数组的解释

如果next[j] = k(k > 0), 则代表j之前的字符串中有最大长度为k的相同前缀后缀。

如果k为0或者-1,则代表j将退回P的开头。

1.前缀后缀的最长公共元素长度

eg.对于字符串"ABCDAB", 最长公共元素长度为2:

前缀:A, AB, ABC, ABCD, ABCDA;

后缀:B, AB, DAB, CDAB, BCDAB;

在前缀和后缀中,可以看见最长的公共元素是AB,所以长度为2.

2.next数组的含义

当模式串与要匹配的字符串失配时,按理说,S中匹配的位置要退回一开始匹配的位置,而P的位置则要退回第一个位置从头开始,这样就带来了很多重复的无效匹配。KMP算法的改进就体现在这里:失配时,next数组会告诉你模式串应该退回到哪里,而不是全都从头开始,并且这样就不需要回溯S中要匹配的位置了。

3.求next数组的方式

next数组考虑的是将除当前字符外的最长相同前缀后缀,所以要对本章第一节中的方式求出来的结果进行处理,处理方式为将结果--,将初值赋值为-1.

求next数组是以递归的方式进行的。如果已知next[0]到next[j]的值,且假设next[j] = k, 则求解next[j+1]的方式如下:

1.如果P[k] == P[j], 则next[j + 1] = next[j] + 1 = k + 1;

2.如果P[k] != P[j], 则进行进一步判定:如果P[next[k]] == P[j], 则next[j + 1] =  next[k] + 1,如果还是不相等,那么继续令k = next[k]递归寻找。

代码如下:

void get_next(char * p, int next[]){
    int plen = strlen(p);
    next[0] = -1;
    int k = -1, j = 0;
    while(j < plen - 1)
    {
        if(k == -1 || p[j] == p[k]){
            ++j,++k;
            next[j] = k;
        }
        else{
            k = next[k];
        }
    } 
}

三、例题(洛谷P4391 无线传输)

题目描述

给你一个字符串 s1​,它是由某个字符串 s2​ 不断自我连接形成的。但是字符串 s2​ 是不确定的,现在只想知道它的最短长度是多少。

输入格式

第一行一个整数 L,表示给出字符串的长度。

第二行给出字符串 s1​ 的一个子串,全由小写字母组成。

输出格式

仅一行,表示 s2​ 的最短长度。

1.题目分析

首先给出结论:ans = n - next[n]。下面给与证明:

由样例我们可以看到,输入的字符串是若干重复字符串的子串,也就是说,输入的字符串可以由一下三个部分组成:

1)左边多出的部分,设这部分为x;

2)中间由若干重复的a组成,假设重复了p次,设这部分为p * a;

3)右边多出的部分,设这部分为y;

其中,x是a的前缀,y是a的后缀。

因为字符串从0开始,所以我们求next[n]的时候直接用上面的例子中求最大前缀后缀长度的方法就行。

最大的相同前缀后缀为:x + (p - 1) * a + y。

那么,因为 n = x + p * a + y, 与这个最大前缀后缀相减,结果就是a,答案也就出来了。

2.AC代码

# include <iostream>
# include <cstring>
using namespace std;

int l,n[1000050];
char ss[1000050];

void get_next(char *p)
{
	int plen = l,k = -1,j = 0;
	n[0] = -1;
	while (j <= plen - 1)
	{
		if (k == -1 || p[j] == p[k])
		{
			++k, ++j;
			n[j] = k;
		}
		else
		{
			k = n[k];
		}
	}
}

int main(void)
{
	cin >> l >> ss;
	get_next(ss);
	cout << l - n[l] << endl;

	return 0;
}

四、总结

KMP算法是一种非常简洁而优美的算法,短短的几行代码看似容易,但其实理解起来还是有难度的。而当你理顺了背后的逻辑关系之后,这几行代码又仿佛水落石出,不证自明,这种“看山还是山”的感觉确实有趣。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。其核心思想是利用已经匹配的部分来避免重复匹配。 具体实现如下: 1. 预处理模式串P,得到一个next数组。next[i]表示当P[i]与S[j]不匹配时,P[i]应该与S的哪个位置进行匹配,即P[0]~P[next[i]-1]与S[j-next[i]+1]~S[j-1]已经匹配成功。 2. 从文本串S的第一个位置开始匹配,同时用一个指针i记录当前匹配到的模式串位置,用另一个指针j记录当前匹配到的文本串位置。 3. 如果P[i]与S[j]匹配成功,则继续匹配下一个位置。 4. 如果P[i]与S[j]不匹配,则根据next[i]的值将模式串向右移动i-next[i]个位置,同时将i设置为next[i],继续匹配。 5. 如果匹配成功,则返回匹配位置;如果匹配失败,则返回-1。 代码实现如下: ```java public static int kmp(String s, String p) { int[] next = getNext(p); int i = 0, j = 0; while (i < p.length() && j < s.length()) { if (i == -1 || p.charAt(i) == s.charAt(j)) { i++; j++; } else { i = next[i]; } } if (i == p.length()) { return j - i; } else { return -1; } } private static int[] getNext(String p) { int[] next = new int[p.length()]; next[0] = -1; int i = 0, j = -1; while (i < p.length() - 1) { if (j == -1 || p.charAt(i) == p.charAt(j)) { i++; j++; next[i] = j; } else { j = next[j]; } } return next; } ``` 以上代码实现了KMP算法,其中getNext()方法用于计算next数组,kmp()方法用于匹配字符串。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值