KMP算法

最新推荐文章于 2023-04-09 17:43:52 发布

小虾米 ~

最新推荐文章于 2023-04-09 17:43:52 发布

阅读量298

点赞数

分类专栏：数据结构与算法

本文链接：https://blog.csdn.net/Shrimp_millet/article/details/101171854

版权

数据结构与算法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

定义

Knuth-Morris-Pratt 字符串查找算法，简称为 “KMP算法”，常用于在一个文本串S内查找一个模式串P 的出现位置，这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表，故取这3人的姓氏命名此算法。

算法流程

假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置

如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++，继续匹配下一个字符；
如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]。此举意味着失配时，模式串P相对于文本串S向右移动了j - next [j] 位。

字符串的前缀和后缀

如果字符串A和B，存在A=BS，其中S是任意的非空字符串，那就称B为A的前缀。例如，”Happy”的前缀包括{”H”, ”Ha”, ”Hap”, ”Happ”}，我们把所有前缀组成的集合，称为字符串的前缀集合，可以发现所有的前缀都有第一个字符。同样可以定义后缀A=SB，其中S是任意的非空字符串，那就称B为A的后缀，例如，”xiami”的后缀包括{”iami”, ”ami”, ”mi”, ”i”}，然后把所有后缀组成的集合，称为字符串的后缀集合，可以发现所有的后缀都有最后一个字符。要注意的是，字符串本身并不是自己的后缀。

next数组

next 数组各值的含义：代表当前字符之前的字符串中（不包括当前字符），有多大长度的相同前缀后缀。例如如果next [j] = k，代表j之前的字符串中有最大长度为k 的相同前缀后缀

当模式串的后缀pj-k pj-k+1, ..., pj-1 跟文本串si-k si-k+1, ..., si-1匹配成功，但pj 跟si匹配失败时，因为next[j] = k，相当于在不包含pj的模式串中有最大长度为k的相同前缀后缀，即p0 p1 ...pk-1 = pj-k pj-k+1...pj-1，故令j = next[j]即j=k，使得模式串的前缀p0 p1, ..., pk-1对应着文本串 si-k si-k+1, ..., si-1，而后让pk 跟si 继续匹配，此时相当于从S串的i-j位开始匹配，si-k si-k+1, ..., si-1与p0 p1, ..., pk-1已经匹配成功，而后匹配pk和si，使得i可以不用回溯。如下图所示：

求next数组值的程序如下所示：


void getNext(char * p, int * next)

{

	next[0] = -1;

	int i = 0, j = -1;

	while (i < strlen(p))

	{
		if (j == -1 || p[i] == p[j])
		{
			++i;
			++j;
			next[i] = j;
		}	
		else
			j = next[j];

	}
}

KMP算法如下：


int KMP(char * t, char * p) 

{
	int i = 0; 

	int j = 0;

	while (i < strlen(t) && j < strlen(p))
	{
		if (j == -1 || t[i] == p[j]) 
		{
			i++;
           		j++;
		}
	 	else 
           		j = next[j];
    	}

    if (j == strlen(p))
       return i - j;
    else 
       return -1;
}