朴素的模式匹配算法
对主串的每一个字符作为子串的开头,与要匹配的字符串进行匹配。对主串做大循环,每个字符开头做需匹配长度的小循环,直到匹配成功或者全部遍历完成为止
示例程序(朴素的模式匹配)
int Index(char *S, char *T)
{
int i, j;
// 直到遍历主串完成或者需匹配字符串全部匹配成功
for (i = 0, j = 0; i < (int)strlen(S) && j < (int)strlen(T);) {
if (S[i] == T[j]) {
// 如果当前字符相同,则比较下一个字符
i++;
j++;
} else {
// 如果当前字符不同,则主串进行回溯,跳转到当前匹配的开头的下一位
// 需匹配字符串从头开始
i = i - j + 1;
j = 0;
}
}
// 判断是否全部匹配成功,返回位置(第)
if (j == (int)strlen(T)) {
return i - j + 1;
} else {
return -1;
}
}
KMP模式匹配算法
按照朴素的模式匹配算法进行字符串的查找,我们仔细想想会发现,有些步骤是多余的,例如:
主串S:abcfgex
需要匹配串T:abcx
第1次:
abcdefgex
abcdex
i=6,j=6,f和x不相等
第2次:
abcdefgex
abcdex
i=2,j=1,a和b不相等
第3次:
abcdefgex
abcdex
i=3,j=1,a和c不相等
第4次:
abcdefgex
abcdex
i=4,j=1,a和d不相等
第5次:
abcdefgex
abcdex
i=5,j=1,a和e不相等
第6次:
abcdefgex
abcdex
i=6,j=1,a和f不相等
仔细分析可以发现,在第一次匹配中,我们已经知道S和T的abcde是一样的,而且T串的首字符与后面的字符均不相同,所以其实第2,3,4,5次匹配是多余的,第6次由于S和T不相同,不能判断T的首字符是否与S不同,固从第6次开始继续比较即可
那么可能有人又要问了,假如T串后面也有字符a那该怎么办呢?
接下来我们看看下面的例子:
主串S:abcababcacc
需要匹配串T:abcabx
第1次:
abcababcacc
abcabx
i