在百度词条里找到了这个,感觉还是不是很好理解。
我们知道KMP是在BF算法上面改进而来的,BF通过一遍遍的对比,算法复杂度最大为(n*m)最小为(m+n),而KMP可以直接把算法复杂度控制在(m+n)。
同样是对比,KMP优势就在于不是一个个去对比,而是在对比之后能够直接跳转到对应的跳转位置。
假如我们现在需要的主串a为:abababababca (i控制)而模式串为b:abababca (j控制),在第一次对比不符合时,KMP可以选择i跳到第四个出现的a上,而不是第一个a后面的b。这样就能在主串大的时候
所以,我们应该如何去进行跳转?
因此我们需要一个next【】来得知跳转的位置。
这里的next【】就是在某个位置前字符串中他们前缀和后缀交集的最大长度。
这里解释一下前缀,比如abcde 它的前缀就有[a] [ab] [abc] [abcd] 后缀就有[bcde] [cde] [de] [e]
这里交集就是0即e +1位置上的next为0;
补充2021.4.8:
虽然知道了如何去写KMP但是还是不是很懂为什么next【】这样求后就是取值的确切点?
于是再去看了几组数据。
还是以下面图片的例子为准:
abababca ——>
此时,我们需要将以移动模式串(即移动j指针),我们已知道需要移动到二号位,此时有四个重合点,如何找到最适合移动的位置,这里就需要用前缀和后缀最大交集。
最大交集我们可以这样理解,在主串中倒着推的字符和模式串正着推的字符相交的最大点,于是就可以利用这个来找到我们需要移动的最适地方。
abababc为例
前缀有a ab aba abab ababa ababab
后缀有c bc abc babc ababc bababc
这里的交集就是 0 故c +1位置next为0;
ababab:
前缀:ababa abab aba ab a
后缀:babab abab bab ab b
交集:abab ab
最大长度:4
所以b +1位置上next为4;
接下来就是next的代码:
void getNext(char* p,int *next)
{
next[0] = -1;
int i = 0, j = -1;
while (i < strlen(p))
{
if (j == -1 || p[i] == p[j])
{
i++;
j++;
next[i] = j;
}
else if (p[i] != p[j])
{
j = next[j];
}
}
}
KMP:
int KMP(char* t, char* p,int *next)
{
int i = 0, j = 0;
while (i < strlen(t) && j < strlen(p))
{
if (j == -1 || t[i] == p[j])
{
i++;
j++;
}
else
{
j = next[j];
}
}
if (j == strlen(p))
{
return i - j;
}
else {
return -1;
}
}
优化next[]数组:
如果我们遇到这样的情况:
是不是要一个个去移动,从第一个a一直移到最后。
这样是不是算法上的优越性就难以体现。
如果我们在遇见这种情况能够直接跳到第一个呢?
这样想,我们把aaaab标上序号,a1,a2,a3,a4,b
第一个对比,i=3(b) j=3(a3)
如果用之前的next则j会跳到2(a2),但是我们知道a3之前的都相等,相当于如果a1 ~ a4中只要有一个不满足的,那么前面都不会满足,所以我们就只要在a1 ~ a4的next都指向第一个a1即next[a1~a4]=0,当然a1在代码中之前先定义的next为-1,所以我们不需要再修改a1的。
理解了修改的意思,我们就只需要在next上面再加点东西就行了
void getNext(char* p,int *next)
{
next[0] = -1;
int i = 0, j = -1;
while (i < strlen(p))
{
if (j == -1 || p[i] == p[j])
{
i++;
j++;
next[i] = (p[i] != p[j]) ? j : next[j];
}
else if (p[i] != p[j])
{
j = next[j];
}
}
}
若有不足欢迎补充。