前段时间琢磨了一下KMP算法,学习的时候就百度KMP的代码。随处可见一个基本没人怀疑的KMP优化代码,其目的为了减少连着的字符产生的多次迭代。当用一般的串去测试的时候结果正确。但使用“aaabaaaabac”这样的字符串去求next数组,则出错。我觉得很有必要把它写出来。
就拿aaabaaaabac来说,其next数组应该为-1,0,1,2,0,1,2,3,3,4,5,0.按照优化论该优化为:-1 ,-1,-1,2,0,0,0,0,3,4,5,0(最后一个3处的a,没证明是否可被优化,故没被优化)。
这样未优化的正确代码很简单:
void getNext2(char *pattern, int *next)
{
int i = 0; //pattern串的下标
int j = -1; //
next[0] = -1;
int pattern_len=strlen(pattern);
while (i < pattern_len )
{
if (j ==-1 || pattern[i] == pattern[j])
next[++i] =++j;
else
j = next[j];
}
}网上随处可见的所谓优化代码:
void getNext2(char *pattern, int *next)
{
int i = 0; //pattern串的下标
int j = -1; //
next[0] = -1;
int pattern_len=strlen(pattern);
while (i < pattern_len )
{
if (j ==-1 || pattern[i] == pattern[j])
{
++i;
++j;
if (pattern[i] != pattern[j]) //正常情况
next[i] = j;
else //特殊情况,这里即为优化之处。考虑下AAAAB, 防止4个A形成0123在匹配时多次迭代。
next[i] = next[j];
}
else
j = next[j];
}
}其运行结果为 -1,-1,-1,2,-1,-1,-1,3,2,4,-1,1,0.结果是错的
如果将源代码修改一下,的却可以得到类似优化效果,但没人证明其可行性,其想法为下一次匹配失败,减少回溯次数。其条件是下次为相同字符匹配失败,这次的回溯即可优化。其代码如下:
void getNext3(char *pattern, int *next)
{
int i = 0; //pattern串的下标
int j = -1; //
next[0] = -1;
int pattern_len=strlen(pattern);
while (i < pattern_len )
{
if (j ==-1 || pattern[i] == pattern[j])
{
i++;j++;
if (i>1&&pattern[i] == pattern[i-1]&&(pattern[i-1]==pattern[i-2]))//现有两个相同,下一个预测字符也要相同才优化
{
next[i] = next[i-1];
}
else
next[i] = j;
}
else
j = next[j];
}
}
这样的输出就为:-1,0,0,2,0,1,1,1,3,4,5,0 看上去是对的。原理就是如果存在前后两个字符相等,且下一个匹配字符也相同,就取前一个的匹配值。这段代码好处是连续相等的字符最后一个相等的字符不会被优化。本人不知道这样的优化,会不会有bug,且缺少证明。所以建议KMP算法不用去优化这一点。这个优化并不能带来什么性能提升,反倒是bug一大堆。