KMP算法是用于字符串模式匹配的一种无回溯算法,其算法时间复杂度为O(m+n)。其基本思路如下:
首先分析模式字符串p = “p0p1p2p3…pi…pk…pk+i-1pk+ipk+i+1…”
如果已知 p0= pk, p1= pk+1, …, pi = pk+i (1)式
那么,当pk+i+1匹配失败时,可以直接右移字符串p,使得pi对齐pk+i的位置,pi及其之前的字符就不用再次匹配也能保证能够匹配成功。而且,为了不遗漏匹配成功的可能性,还要求对 “p0…pk+i”不存在更大的 i 及相应更小的 k 使得 (1) 式成立,否则会错误地将p字符串右移过长距离。
一般地,对字符串p的任意字符pr,存在一特定下标 k( r ),使得p0…pk( r )-1,与 pr-k( r)…pr-1是 pr 之前部分字符串的最长相同前后缀。在匹配过程中,当pr和源字符串中某字符匹配失败时,可直接用pk( r )与之比较。
源代码如下:
/* 字符串KMP快速匹配实现 */
#define _CRT_SECURE_NO_WARNINGS
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define SRC_LEN 100
#define MDL_LEN 20
void makeNext(const char * szModel, int * next, int len);
void match(const char * szSrc, const char * szModel, int * index);
int main(void)
{
char src[SRC_LEN];
char mdl[MDL_LEN];
int len;
int index;
puts("请输入源字符串:");
gets(src);
puts("请输入模式字符串:");
gets(mdl);
len = strlen(mdl);
match(src, mdl, &index);
printf("%d", index);
getchar();
return 0;
}
/* 匹配函数。通过index返回相匹配的字符串首字符在源字符串中的位置,
通过返回值返回相匹配的字符串首字符的地址。若无相匹配的字符串,则
index为-1,并返回空指针NULL
*/
void match(const char * szSrc, const char * szModel, int * index)
{
char * des;
int srcIndex = 0;
int mdlIndex = 0;
int srcLen = strlen(szSrc);
int mdlLen = strlen(szModel);
/* 创建next数组,并初始化 */
int *next = (int *)malloc(mdlLen * sizeof(int));
makeNext(szModel, next, mdlLen);
/* 匹配主循环体 */
while (mdlIndex < mdlLen && srcIndex < srcLen) {
/* 若对应位置字符匹配则步进1,否则移动szModel */
if (mdlIndex == -1 || szSrc[srcIndex] == szModel[mdlIndex]) {
mdlIndex++; srcIndex++;
} else {
mdlIndex = next[mdlIndex];
}
}
/* 若mdlIndex未达到串尾,表明szModel未完成匹配。否则即是完成匹配 */
if (mdlIndex >= mdlLen) {
*index = srcIndex - mdlLen;
} else {
*index = -1;
}
}
void makeNext(const char * szModel, int * next, int len)
{
int index = 0;
int k = -1;
next[0] = -1;
/* 扫描szModel字符串以确定next数组 */
while (index < len) {
while (k >= 0 && szModel[index] != szModel[k])
/* 若不匹配,则移动字符串,同match函数 */
k = next[k];
index++; k++;
/* !!!ATTENTION!!! */
if (szModel[index] == szModel[k]) {
next[index] = next[k];
} else {
next[index] = k;
}
}
}