扩展的KMP算法威力强大,可以在线性时间复杂度找出 文本串 每个后缀相对于 模式串 的最大前缀匹配长度。
算法的思想是与KMP十分相似。
先利用动态规划求出模式串每个后缀与模式串本身的最大匹配长度,将结果保存在预处理数组 A
再使用同样的方法求出答案数组 Extend 。
(因为这个算法得知的信息更多,故被称为扩展的KMP算法)
算法需要维护一个最远匹配位置 k , 她标识目前已知信息的最远位置。
由 A 数组的定义,有
即
如果 ,即:
有
由A数组的定义,有
且
如果 ,即:
那么红色区域就是最大匹配长度。也即:
否则,就如:
此时需要从末端(上图的绿色线条处)的下一位继续尝试匹配。
匹配完毕后,需要更新k的值。
如果,就用不上A数组了,老老实实尝试匹配。
在代码实现上,上述两种尝试匹配的情况可以合并。
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <algorithm>
#define MAX_L 1000
char a[MAX_L];
int A[MAX_L];
char b[MAX_L];
int B[MAX_L];
int main() {
char s[] = "aabaabaabaa";
strncpy(a, s,sizeof(s));
char ss[] = "aabbaabbaabaabaabbaabbbbaabaabaabaabbabbbabab";
strncpy(b, ss, sizeof(ss));
int i, j, k;
int len_a = strlen(a);
int len_b = strlen(b);
for (j = 0; j + 1 < len_a && a[j] == a[j + 1]; j++);
A[1] = j;
k = 1;
for (i = 2; i < len_a; i++)
{
if (i - k + A[i - k] <= A[k] - 1)
A[i] = A[i - k];
else
{
for (j = std::max(0, k + A[k] - i); j + i < len_a && a[j] == a[j + i]; j++);
A[i] = j;
k = i;
}
}
for (j = 0, i = 0;i < len_b&&j<=len_a && b[i] == a[j]; j++,i++);
B[0] = j ;
k = 0;
for (i = 1; i < len_b; i++)
{
if (i - k + A[i - k] <= B[k] - 1)
B[i] = A[i - k];
else
{
for (j = std::max(0, B[k] + k - i); j < len_a && j + i < len_b && b[i + j] == a[j]; j++);
B[i] = j;
k = i;
}
}
for (i = 0; i < len_b; i++)
{
printf("%d : %d\n", i, B[i]);
}
}