KMP算法
参考自某博主转载的KMP算法详解
kmp算法是字符串匹配算法,在主串T 中找相应的与模式串P匹配的字串,并返回匹配成功的第一个字符的下标。
介绍几个概念
char s[20]="hello";
1 某串前缀集合:如,s的前缀为{h, he, hel, hell},不包含最后一个字符
2 某串后缀集合:如,s的后缀为{ello, llo, lo, o},不包含第一个字符
3 PMT(Partial Match Table)部分匹配表
PMT
PMT是什么?
某字符串前缀集合和后缀集合交集最长的元素长度。
int PMT[];//把它定义成一个数组,用来存放对应的值
在主串T和模式串P的匹配中,P有几个字符,则对应几个PMT的值。
由此发现:
PMT[j-1]记录的那个值是每次失配之后,j要调到的模式串的位置,但是这样又不太方便,如果能够使PTM[j]对应着j要跳到的模式串的位置就好了,所以,我们又引入了next数组,下面再将到。
如何找每个PMT的值呢?
char P="abababca";
既然是字串P的前缀集和后缀集的交集最长的元素的长度,以P作例:
PMT[0]=0;//因为j=0时,字串P中的首字符只有一个,既没有前缀也没有后缀,所以,PMT[0]为0
PMT[1]=0;//因为j=1时,字串P中的ab这两个字母构成的字符串的前缀a和后缀b没有交集,所以PMT[1]=0;
… …
依次类推,可以求出PMT的所有值。
但是,实际情况下,我们不用PMT的值,为了更方便,我们引入了一个next数组,使next[0]=-1;
,next[i]=PTM[i-1]
。
但是如何求的next[]呢?
其实就是串的匹配问题,拿着P和P的前缀进行匹配,我参考的那篇博客上有图,可以自行对照理解。
下面直接附代码:
void getNext(char * p, int * next)
{
next[0] = -1;
int i = 0, j = -1;
while (i < strlen(p))
{
if (j == -1 || p[i] == p[j])
{
++i;
++j;
next[i] = j;
}
else
j = next[j];
}
}
KMP匹配函数
代码:
int KMP(char * t, char * p)
{
int i = 0;
int j = 0;
while (i < strlen(t) && j < strlen(p))
{
if (j == -1 || t[i] == p[j])
{
i++;
j++;
}
else
j = next[j];
}
if (j == strlen(p))
return i - j;
else
return -1;
}
。。。。hold不住了,先睡觉了,再更。。