上一篇博客里提到,朴素的匹配算法效率太低,因此三位前辈:D.E.Knuth、J.H.Morris和V.R.Pratt发表了一种相对高效的匹配算法,简称KMP算法。
要理解这种算法其实并不难,虽然起初看了无数视频看了许多书籍都没有办法很透彻的理解,但经过一点一点分析,总会有一天将它思考透彻的。
总的来讲,这个算法做到的其实就是将不必要的匹配跳过。
例如主串为:abcababca
子串为:abcabx
这是一个很简单的例子,我们会从第一个开始比较,一直到前五个“abcab”都能匹配成功,但是最后的“x”匹配失败。用朴素算法来匹配时将让子串回到主串的第二个位置继续匹配,发现不匹配,再移到第三个…
而其实我们可以看出,前五个都是能匹配上的,并且子串中第二、三个字符和第一个字符不同,所以可以直接在主串匹配时跳过这两次匹配。大概能够感受到了,具体要跳到哪里进行匹配,其实是取决于子串的,和主串丝毫没有关系,这也就是理解KMP算法的一个关键点:next数组只和子串有关。
关于如何得到next数组的值,一个公式帮上了大忙:
这里next数组是从下标为1开始的,并且储存主串和子串的数组第0位存放的是串的长度。
下面放上代码:
#include<stdio.h>
#define MAXSIZE 40
typedef char String[MAXSIZE+1];
int next[MAXSIZE];
//获取next数组的值
void Get_next(String T, int *next)
{
int i=1, j=0;
next[1] = 0;
while(i < T[0])
{
if(j == 0 || T[i] == T[j])
{
i++;
j++;
next[i] = j;
}else
j = next[j];//字符不匹配时,回溯
}
}
//KMP算法
int Index_KMP(String S, String T, int pos)
{
int i = pos;
int j = 1;
while(i <= S[0] && j <= T[0])
{
if(j==0 || S[i] == T[j])
{
i++;
j++;
}else
j = next[j];//不匹配时j回退
}
if(j > T[0])
return i - T[0];
else
return 0;
}
int main()
{
String A;
String B;
int i;
int length1, length2;
printf("请输入主串A的长度:");
scanf("%d", &length1);
printf("请输入子串B的长度:");
scanf("%d", &length2);
A[0] = length1;
B[0] = length2;
getchar();
printf("请依次输入A中元素:");
for(i=1; i<=length1; i++)
scanf("%c", &A[i]);
getchar();
printf("请依次输入B中元素:");
for(i=1; i<=length2; i++)
scanf("%c", &B[i]);
Get_next(B, next);
printf("next数组:");
for(i=1; i<=length2; i++)
printf("%d ", next[i]);
printf("\n");
printf("匹配的位置为:%d", Index_KMP(A, B, 0));
return 0;
}
程序运行结果:
yysy,KMP算法真的不好理解…我觉得我理解的和我能表述出来的还不够完整,先放在这里后续有时间来补充一些理解好了。