KMP是单模匹配算法,即在一段长度为n的文本串中搜索一个长度为m的模式串,算法复杂度为O(n+m),差不多是这类算法能达到的最优复杂度。
朴素的模式匹配算法
在处理这类问题时,最简单的方法便是暴力匹配,从第一个匹配到的字符开始逐个匹配是否相同,如不相同则回溯到下一位再进行匹配,这种算法在匹配到的位置靠前时也不会显得太慢,但是一旦模式串出现 在文本串的后面甚至最末尾,那算法的复杂度将会退化为O(nm),整体都会拖慢很多。
在这种情况下,再来看KMP算法的精妙之处。
KMP算法
KMP是一个可以在任何情况下都可以达到复杂度为O(n+m)的算法,其核心便在于KMP在进行匹配之前预处理了模式串,通过计算模式串的特征可以使得在进行匹配的时候能够跳过一些字符串,达到快速匹配。
那KMP是具体怎么操作的呢,如图:
我们在拿到模式串P的时候再开一个额外的数组Next[],Next[]数组中存放的便是模式串P每一位的最长公共前后缀数,什么是公共前后缀,公共前后缀指的是以当前字符为结尾的非前缀子串和前缀串匹配的最长长度。
以图为例,对于第五个字符b而言,以b结尾的非前缀子串为bcab,cab,ab,b,前缀子串为abca,abc,ab,a,在位数匹配的情况下再看字符是否逐个匹配,b!=a,ab=ab,cab!=abc,bcab!=abca,因此匹配到的最长长度为2,即有Next[5]=2,如此将每个位上的字符都先进行预处理,即可获得Next[]数组。
但是如果在获得Next[]数组时使用枚举的话难度也会大大提升,因此对于这个问题在这里我们可以先假设:
- j = Next [ j ]
- j - 1 = Next [ j - 1 ]
- j = Next [ j - 1 ] + 1
因此可以得到第j位的Next[]值为上一位的Next[]值+1,如果不匹配则再回溯到Next [ j - 1 ]的位置查看是否匹配,便为 j = Next [ Next [ j - 1 ] ] + 1,如此匹配下去,即可获得j的Next[]值。
代码如下:
void getnext(int next[], const char str[])
{
int m = strlen(str);
int j = 0, k = -1;
next[0] = -1;
while (j < m)
{
if (k == -1 || str[j] == str[k])
{
j++;
k++;
next[j] = k;
}
else
k = next[k]; //匹配失败则返回
}
}
既然得到了Next[],那KMP的模式匹配也可以开始使用了,具体方法便为,在模式匹配失败的位置不选择回溯,而是将模式串移动到Next值的位置,即用前面与其一样开头的字符来代替这个位置,即可继续进行匹配:
在这里a是第三位,Next [3] = 1(图中以下标计算),因此在失败的a的位置将与其匹配的a放到这里即可再继续进行匹配,大致如下:
具体代码操作如下:
int kmp(char str1[], char str2[], int n, int m)
{
int i = 0, j = 0;
while (i < n && j < m)
{
if (j == -1 || str1[i] == str2[j])
{
i++;
j++;
}
else
j = Next[j];
}
if (j == m)
return (i - m + 1);
return -1;
}
在这里可以对个别要求进行修改,如将j < m去掉,再将匹配到的情况改为j = 0,即可获得文本串中模式串的数量等,具体其他操作可以自行修改