在KMP算法原理中,我们简要分析了KMP算法的原理,在直观上了解了算法流程,并分析了KMP算法之于暴力算法的效率提升之处。这里我们就从暴力算法出发,根据算法基本流程一步步实现典型的KMP算法。
文中出现的名词:
模式串(pattern,P),长度为m,当前字符指针i
文本串(text,T),长度为n,当前字符指针j
1.暴力算法(BF)
暴力算法的是最直接的匹配算法,分别给模式串P和文本串T两个指针j和i,从文本串第一个字符开始匹配模式串,直到匹配成功或者指针i越界为止。
int match(char* P, char* T)
{
int n = (int)strlen(T), i = 0; //文本串长度n,当前接受比较字符位置i
int m = (int)strlen(P), j = 0; //模式串长度m,当前接受比较字符位置j
while (j < m && i < n) //自左向右逐个比较字符
{
if (T[i] == P[j]) //若当前字符匹配成功,则跳到下一个字符
{
i++;
j++;
}
else //若当前字符匹配失败,则文本串回退、模式串复位
{
i -= j - 1;
j = 0;
}
}
return i - j; //如果匹配成功,i-j为P相对于T的对齐位置;如果匹配失败,i-j必然>n-m
}
暴力算法的正确性是显而易见的,但在最坏情况下时间复杂度为文本串长度与模式串长度乘积,稍大规模的应用环境就难以接受了。
2.KMP算法
暴力算法的低效率在于存在大量的重复匹配。每轮匹配失败后,文本串和模式串的指针都要回退并从头开始下一轮比较。实际上,上一轮匹配的信息我们已经掌握,如果能利用这些信息就能提高算法的效率。通过利用以往成功比较所获得的信息,不仅可以避免文本串指针回退,并且可以使模式串尽可能大跨度右移。KMP算法的核心思想就是将信息转化为预知。
考虑一般情况,某轮比较匹配失败在 P[j] != T[i],则说明P[0, j) 和 T[i-j, i)已经完全匹配成功了,而下一轮比较中应与T[i]对齐的P[j]完全由子串P[0, j)决定。上文中每次匹配所获得的信息正是来自于子串P[0, j)。因此我们为模式串的每个字符构造一个
查询表(next table),即
前缀表(prefix table),就能将信息转化为对下次匹配起始位置的预知。具体原理请见
KMP算法原理。
int* buildNext(char* P) //构造模式串P的next表
{
size_t m = strlen(P), j = 0;
int* N = new int[m];//next表
int t = N[0] = -1;//模式串指针
while (j < m - 1)
{
if (0 > t || P[j] == P[t])//匹配
{
j++; t++;
N[j] = t;
}
else //匹配失败
t = N[t];
}
}
int match(char* P, char* T)
{
int* next = buildNext(P); //构造next表
int n = (int)strlen(T), i = 0; //文本串长度n,文本串指针i
int m = (int)strlen(P), j = 0; //模式串长度m,文本串指针j
while (j < m && i < n) //自左向右逐个比较字符
{
if(0 > j || T[i] == P[j]) //若匹配成功,或P已经移出最左侧(即j==-1),(注:两个判断顺序不能交换)
{
i++; j++; //移到下一字符
}
else
j = next[j]; //模式串根据next表右移,而文本串不必回退
}
delete []next; //释放next表
return i - j; //如果匹配成功,i-j为P相对于T的对齐位置;如果匹配失败,i-j必然>n-m
}