一、算法简介
KMP(Knuth-Morris-Pratt)算法是一种字符串匹配算法,用于在给定文本中查找指定的模式串。它的基本原理是通过预先计算一个部分匹配表(也称为next数组)来避免不必要的字符比较。
部分匹配表的每个元素包含了模式串中每个位置前的最长公共前后缀的长度。在字符串匹配过程中,如果当前字符匹配失败,算法可以根据部分匹配表确定下一个应该匹配的字符位置,从而避免了对已经确定不匹配的字符的比较。
二、算法步骤
KMP算法的主要步骤如下:
- 预处理阶段:计算模式串的部分匹配表(也称为next数组)。
- 匹配阶段:在文本中查找模式串,利用部分匹配表来减少不必要的字符比较。
三、算法时间复杂度
KMP算法的时间复杂度为O(n + m),其中n为文本长度,m为模式串长度。由于它避免了不必要的字符比较,因此比朴素的字符串匹配算法更高效。
四、KMP算法代码实现
(1)预处理阶段
求next数组的算法步骤如下:
- 初始化一个变量k为0,表示当前最长公共前后缀的长度。
- 遍历模式串H2,从第二个字符开始。
- 在遍历过程中,如果k大于0且H2的k位置字符与当前字符不相等,则更新k值,使k等于next数组中前缀长度为k的元素的最长公共前后缀长度。
- 如果H2的k位置字符与当前字符相等,则k值加1。
- 将H2中每个字符的最长公共前后缀长度保存到next数组的相应位置。
- 最后返回next数组。
该算法的目的是利用模式串H2中的信息,求出每个字符的最长公共前后缀的长度,并将这些长度保存在next数组中。
// 求next[],next[i]表示当前前缀和后缀的最长公共前后缀的长度
int *getnext(HString H2)
{
int k = 0; // k表示最长公共前缀的长度
int *next = (int *)malloc(sizeof(int) * H2.length);
next[0] = 0;
for (int i = 1; i < H2.length; i++)
{
while (k > 0 && H2.ch[k] != H2.ch[i])
{
k = next[k - 1];
}
if (H2.ch[k] == H2.ch[i])
{
k++;
}
next[i] = k;
}
return next;
}
(2)匹配阶段
// KMP算法重写index
int KMPindex(HString H1, HString H2)
{
int *next = getnext(H2);
int i = 1, j = 1;
// 当两个字符串都有剩余字符时进行比较
while (i <= H1.length && j <= H2.length)
{
// 如果字符匹配,则继续比较下一个字符,需要注意的是ch是数组,下标从0开始,所以索引需要减1
if (H1.ch[i - 1] == H2.ch[j - 1])
{
i++;
j++;
}
else
{
if (j == 1)
{
i++;
}
else
{
j = 1 + next[j - 2]; // 将H2的起始位置重置为next[j-2]+1
}
}
}
// 如果H2被完全匹配,则返回H1中匹配的起始位置
// 否则返回0
if (j > H2.length)
{
free(next);
return (i - H2.length);
}
else
{
free(next);
return 0;
}
}
五、说明
1.本文文字部分由RACCOON生成后修改。
2.本文中的next数组是部分匹配值数组,常见的next数组为了调用以及理解的方便会继续优化,具体优化为:数组数据整体右移1位,且首位补-1,进一步整体数据+1之后得到的才是一般意义上的next数组。
3.关于KMP算法的优化,即nextval数组的求解以及应用,本文未提及。
4.算法经有限数据测试无误,若发现问题,欢迎联系指出!