简介
KMP 算法是 D.E.Knuth、J,H,Morris 和 V.R.Pratt 三位神人共同提出的,称之为 Knuth-Morria-Pratt 算法,简称 KMP 算法。该算法相对于 Brute-Force(暴力)算法有比较大的改进,主要是消除了主串指针的回溯,从而使算法效率有了某种程度的提高。
提取加速匹配的信息
上面说道 KMP 算法主要是通过消除主串指针的回溯来提高匹配的效率的,那么,它是则呢样来消除回溯的呢?就是因为它提取并运用了加速匹配的信息!
这种信息就是对于每模式串 t 的每个元素 t j,都存在一个实数 k ,使得模式串 t 开头的 k 个字符(t 0 t 1…t k-1)依次与 t j 前面的 k(t j-k t j-k+1…t j-1,这里第一个字符 t j-k 最多从 t 1 开始,所以 k < j)个字符相同。如果这样的 k 有多个,则取最大的一个。模式串 t 中每个位置 j 的字符都有这种信息,采用 next 数组表示,即 next[ j ]=MAX{ k }。
如何在10+g的日志中,如何快速地查找关键字
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
void make_next(const char *pattern, int *next) {
int q, k;
int m = strlen(pattern);
next[0] = 0;
for (q = 1,k = 0;q < m; q ++) {
while (k > 0 && pattern[q] != pattern[k])
k = next[k-1];
if (pattern[q] == pattern[k]) {
k ++;
}
next[q] = k;
}
}
int kmp(const char *text, const char *pattern, int *next) {
int n = strlen(text);
int m = strlen(pattern);
make_next(pattern, next);
int i, q;
for (i = 0, q = 0;i < n;i ++) {
while (q > 0 && pattern[q] != text[i]) {
q = next[q-1];
}
if (pattern[q] == text[i]) {
q ++;
}
if (q == m) {
//printf("Pattern occurs with shift: %d\n", (i-m+1));
break;
}
}
return i-q+1;
}
int main() {
int i;
int next[20] = {0};
char *text = "ababxbababababcdababcabddcadfdsss";
char *pattern = "abcabd";
int idx = kmp(text, pattern, next);
printf("match pattern : %d\n", idx);
for (i = 0;i < strlen(pattern);i ++) {
printf("%4d", next[i]);
}
printf("\n");
return 0;
}
这个转载比较详细。网址为: