字符串匹配之KMP算法
简介:暴力法处理字符串匹配,从主串的第一个字节开始,作为子串的首字节,依次与子串进行比较。而KMP算法可以在一次比较失败后,向后移动多个位置开始比较。
原理:假设在一次比较中,主串元素a[i]与子串元素b[j]匹配失败,且k<j为使得b[0,k-1] = b[j-k,j-1]的最大值,那么,主串中与子串匹配的首位置>=i-k
猜想:如果子串在主串中,首位置为a[i-t](0<t<i),那么,b[0,t-1] = a[i-t,i-1] = b[j-t,j-1](式1),显然,t是满足(式1)最大的值
证明:(反证法)
假设主串a[0,n]中,存在子串b,且首位置为i-k-t,(t>0),
则有b[0,k-1+t] = b[j-k-t,j-1],矛盾。
故原命题正确。
获取next数组:
int kmpNext(const char * sub, int * next)
{
int j;
int k;
int len;
j = 0;
k = next[0] = -1;
len = strlen(sub);
while ( j < len )
{
if ( k < 0 )
{
k = next[++j] = 0;
}
else if ( sub[j] == sub[k] )
{
next[++j] = ++k;
}
else
{
k = next[k];
}
}
return 0;
}