KMP模版

最新推荐文章于 2025-03-26 16:35:11 发布

九野的博客

最新推荐文章于 2025-03-26 16:35:11 发布

阅读量3.1k

点赞数 5

分类专栏： KMP 模版文章标签： KMP

本文链接：https://blog.csdn.net/acmmmm/article/details/9863495

版权

模版同时被 2 个专栏收录

45 篇文章

订阅专栏

KMP

18 篇文章

订阅专栏

九野的博客，转载请注明出处 http://blog.csdn.net/acmmmm/article/details/9863495

-------------------------------------------------------------------------------------

KMP的失配数组 f 含义:

i 0 1 2 3 4 5 6 7 8 9 10 11

P[i] a b r a c a d a b r a 无

f[i] 0 0 0 0 1 0 1 0 1 2 3 4

仔细观察就能得出 f 数组的含义：字符串 P 的前缀与 i位置的后缀的最大匹配字符个数-1。

比如第10号位置

P: ABRA······

······ABRA

1、此时f[i] = 最大匹配字符个数-1.

2、也是第二个字母A在 P中的下标。

-------------------------------------------------------------------------------------

循环节概念：

如字符串 P = "ABCABCABCABC"

则这里的循环共有3个： 1、ABC 2、ABCABC 3、ABCABCABCABC

就是把一定长度的前缀重复数次就能得到自身。

而 ABC 又叫最小循环节

-------------------------------------------------------------------------------------

再看失配数组：

i 0 1 2 3 4 5 6 7 8 9

P: a b c a b c a b c 无

f: 0 0 0 0 1 2 3 4 5 6

---

先给出结论：

如果 i % (i-f[i]) ==0 则=>字符串P[0-i] 这段的字符串的最小循环节一定是{ {P[0],P[1],P[ i-f[i] ]}, {P[i-f[i]+1,···}

也就是说 P[0-i] 最小循环节长度为 i - f[i]

比如 i==5时字符串P[0-i]为：abcabc, i - f[i] = 3 ,即abc

比如 i==8时字符串P[0-i]为：abcabcabc, i - f[i] = 3 ,即abc

----

证明：

1、循环节长度

比如字符串长度为16 那么，循环节长度只可能是 1,2,3,4,8,16.（当然自身是自身的循环节没啥意思，忽略16，那么剩下的就是16的因子）

设ABCD长为16，每段长度为4。

当i==16时，f[i] = 12.

满足等式 i % (i-f[i]) == 0。

由f[i] 含义得到前12个字符和后12个字符相同。

因为12 % (i-f[i])同样=0，所以把12分成 12/(i-f[i]) 份，即分成3份。

再由ABC = BCD =:> A=B && B=C && C=D.

由等式连等得到 A=B=C=D

循环节证毕。

#include <stdio.h>
#include <string.h>
char T[10000],P[100];//从0开始存
int f[100];//记录P的自我匹配
void getFail(){
	int m=strlen(P);
	f[0]=f[1]=0;
	for(int i=1;i<m;i++){
		int j=f[i];
		while(j&&P[i]!=P[j])j=f[j];
		f[i+1]= P[i]==P[j] ? j+1 : 0;
	}
}

int find(){//返回第一个P 在 T 中出现的位置
	int len1=strlen(T),len2=strlen(P);
	getFail();
	int j=0;
	for(int i=0;i<len1;i++)
	{
		while(j&&P[j]!=T[i])j=f[j];
		if(P[j]==T[i])j++;
//到这一步，j就代表 T[i]已经匹配了前面j个P的字符串
		if(j==len2)return i - len2 + 1;
		}
	return -1; //表示 P 不存在于 T 
}

----------------------------------

我们想象一下KMP函数的执行过程：

↓

S1：ACM MECKSDLF

S2：ASFDJKLEDHV

f2：01349098203045 //乱写的

↑

显然i是不停→移动，而j是不停进行失配过程。

则当i移动到S1结尾时，j所在的位置就是j所失配的位置。（注意此时i是超过S1的（在最后一个字母后面一位, 且j不一定与S1[i]匹配，但S2[j]（不包括S2[j]前面的一定与S1匹配）

而pos 是S2的前缀与S1的后缀最大匹配字母数。因此S2[pos]是不与S1匹配的！

-----------------------------------------
失配数组优化：

#define N 300005
char T[N];//从0开始存  
int f[N];//记录P的自我匹配  
void getFail(int len, char *P)    
{    
    int i = 0, j = -1; 
    f[0] = -1;
    while(i != len)
    {    
        if(j == -1 || P[i] == P[j])    
            f[++i] = ++j;    
        else    
            j = f[j];    
    }    
}  
int KMP(int *f2, char *S1, char *S2, int lens1, int lens2){   //f2是S2的失配数组 
	getFail(lens2, S2);
    int pos = 0, len = lens1, j = 0, i = 0;
	int gg = 0;
    while(i <= len)   
    {   
        while(j!=-1 && S1[i] != S2[j]) j = f2[j];   
        i++, j++;
		gg = max(j, gg);
        if(i == len)
			pos = max(pos, j);  
    }   
	//if(gg == lens2)return gg;
	//gg是S2在S1中任意位置起的最大匹配个数
    return pos;
//这样得到的是S1的尾部和S2的前缀的  最大匹配字符个数 
}

优化版失配数组详见：http://blog.csdn.net/niushuai666/article/details/6965517