字符串的模式匹配问题可以简单描述为,判断主串中是否包含子串,如果包含,要给出第1次出现子串的位置。比如,主串为believe,子串为lie,那么主串就包含子串,第1次出现的位置是在主串的第3个字符处。
朴素的模式匹配算法是进行两重循环,主串、子串分别从第1位开始,逐字比较。如果遇到不同字符,则子串重新回到第1位,与主串的第2位开始进行逐字比较,以此类推。记主串、子串长度分别为m和n,则该算法的复杂度为O(mn)。
朴素算法中,主串、子串都进行了回溯。而KMP算法对主串不回溯,仅对子串回溯,而且也不一定回溯到子串的开头。也就是说,如果比较到某一位不相同,主串的游标仍定格在这里,子串的游标回溯到前面某一位(不一定是开头),来重新与主串的该位进行对比。那么,子串究竟该回溯到哪一位,取决于子串自身的构造,我们把这个“哪一位”记为next。这部分代码如下:
//获得子串第1次在主串中出现的位置
int GetPosition(const char *p, const char *q)
{
int i, j;
int length_p, length_q;
int next[MAX_SHORT];
i = 0;
j = 0;
length_p = strlen(p);
length_q = strlen(q);
GetNextValue(q, next);
while (i < length_p)
{
if (j == -1 || p[i] == q[j])
{
i++;
j++;
}
else
{
j = next[j];
}
if (j == length_q)
{
return (i - length_q + 1);
}
}
return 0;
}
现在,关键就是求子串的next数组。用j来表示子串的某一位,j从0开始计,next数组的定义是:
若j = 0,则next[j] = -1。否则,next[j] = max { k | 0 < k < j-1, S0……Sk-1 = Sj-k……Sj-1 };如果该集合为空集,则next[j] = 0。
中间那个等式的意思这样的,第j位之前有j个字符了,看这j个字符的头和尾最长能有多少位相同,那么k就是多少。举个例子,abcabx,j = 5时,前面的5个字符是abcab,头ab和尾ab是最长的相同点了,因此k = 2,也即next[5] = 2。
在程序实现上,我们用递归的方法。这样想,假如已经有next[j] = k,如果再有T[j] = T[k],这里T为子串,那么对于j+1来说,前面的头和尾又多了一位相同,于是next[j+1] = next[j] + 1 = k + 1。如果运气不好,T[j] != T[k],那么接下来T[j]该与哪一位比较呢?递归去想,当然是和next[k]比较了,因为next本来就是干这件事的嘛,所以这时就让k = next[k],之后接着比较T[j]与T[k]就行了。
求next数组的代码如下:
//获得子串的next数组
void GetNextValue(const char *p, int *next)
{
int j, k;
int length_p;
j = 0;
k = -1;
next[0] = -1;
length_p = strlen(p);
while (j < length_p - 1)
{
if (k == -1 || p[j] == p[k])
{
j++;
k++;
next[j] = k;
}
else
{
k = next[k];
}
}
}
行了,到这里基本就大功告成了,KMP算法的复杂度降低到了O(m+n)。看看运行结果:
注意,无论输入主串还是子串,都不能有空白字符,否则只会读取空白之前的那一段。
完整代码如下:
#include <STDIO.H>
#include <STRING.H>
#define MAX_LONG 100
#define MAX_SHORT 20
int GetPosition(const char *, const char *);
void GetNextValue(const char *, int *);
int main(void)
{
char long_string[MAX_LONG];
char short_string[MAX_SHORT];
int pos;
printf("输入主串:");
scanf("%s", long_string);
printf("输入子串:");
scanf("%s", short_string);
pos = GetPosition(long_string, short_string);
if (pos == 0)
{
printf("查找完毕,主串中不包含子串。\n");
}
else
{
printf("查找完毕,主串中第1次出现子串是在第%d个字符处。\n", pos);
}
return 0;
}
//获得子串第1次在主串中出现的位置
int GetPosition(const char *p, const char *q)
{
int i, j;
int length_p, length_q;
int next[MAX_SHORT];
i = 0;
j = 0;
length_p = strlen(p);
length_q = strlen(q);
GetNextValue(q, next);
while (i < length_p)
{
if (j == -1 || p[i] == q[j])
{
i++;
j++;
}
else
{
j = next[j];
}
if (j == length_q)
{
return (i - length_q + 1);
}
}
return 0;
}
//获得子串的next数组
void GetNextValue(const char *p, int *next)
{
int j, k;
int length_p;
j = 0;
k = -1;
next[0] = -1;
length_p = strlen(p);
while (j < length_p - 1)
{
if (k == -1 || p[j] == p[k])
{
j++;
k++;
next[j] = k;
}
else
{
k = next[k];
}
}
}