串的KMP匹配

兰娃儿

已于 2023-08-02 22:50:01 修改

阅读量88

点赞数

分类专栏：数据结构学习文章标签： java 算法数据结构

于 2023-08-02 22:46:04 首次发布

本文链接：https://blog.csdn.net/lanjiangyu/article/details/132073005

版权

数据结构学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

KMP算法（Knuth-Morris-Pratt算法）是一种字符串匹配算法，用于在一个文本串S中查找是否包含另一个模式串P。它的实现思路是利用已经匹配过的信息来避免不必要的回溯，从而提高匹配效率。

实现思路：

预处理模式串P，构建部分匹配表（也称为next数组），用于记录每个位置之前子串的最长相同前缀和后缀的长度。这样可以在匹配过程中根据已经匹配过的信息，跳过不必要的字符比较。
在文本串S中按照模式串P进行匹配：
a. 初始化文本串索引i=0和模式串索引j=0。
b. 当i小于文本串长度并且j小于模式串长度时，执行匹配操作：
- 若S[i]等于P[j]，则i和j都向后移动一位，继续匹配下一个字符。
- 若S[i]不等于P[j]，根据部分匹配表中的信息，将模式串P向右移动j - next[j]位，同时保持i不动，继续匹配。
  c. 如果j等于模式串长度，说明匹配成功，返回匹配位置的起始索引i - j；否则，返回匹配失败的标识。

下面是KMP算法的C语言实现代码：

#include <stdio.h>
#include <string.h>

// 构建部分匹配表
void getPartialMatchTable(const char* pattern, int* next) {
    int len = strlen(pattern);
    next[0] = -1;
    int k = -1;

    for (int j = 1; j < len; j++) {
        while (k >= 0 && pattern[k + 1] != pattern[j]) {
            k = next[k];
        }
        if (pattern[k + 1] == pattern[j]) {
            k++;
        }
        next[j] = k;
    }
}

// KMP匹配算法
int kmpSearch(const char* text, const char* pattern) {
    int textLen = strlen(text);
    int patternLen = strlen(pattern);

    // 构建部分匹配表
    int next[patternLen];
    getPartialMatchTable(pattern, next);

    int i = 0, j = 0;
    while (i < textLen && j < patternLen) {
        if (j == -1 || text[i] == pattern[j]) {
            i++;
            j++;
        } else {
            j = next[j];
        }
    }

    if (j == patternLen) {
        // 匹配成功，返回匹配位置的起始索引
        return i - j;
    }

    // 匹配失败，返回-1
    return -1;
}

int main() {
    const char* text = "ABABCABABABDABABCABAB";
    const char* pattern = "ABABCABAB";

    int pos = kmpSearch(text, pattern);
    if (pos != -1) {
        printf("Pattern found at index %d\n", pos);
    } else {
        printf("Pattern not found\n");
    }

    return 0;
}

请注意，在实际代码中，需要处理各种边界情况和异常情况，上面的代码只是一个简单的示例。希望这个KMP算法的实现代码对您有帮助！如果有其他问题，请随时向我询问。
构建KMP算法中的匹配表（部分匹配表）需要在模式串P上进行预处理。匹配表的目的是在匹配过程中，根据已经匹配过的信息，快速跳过不必要的字符比较，从而提高匹配效率。

构建匹配表的步骤如下：

初始化next数组：创建一个与模式串P等长的数组next，并将next[0]初始化为-1。
设置两个指针i和j，其中i指向当前匹配的位置，j指向当前部分匹配值。
遍历模式串P，计算每个位置的部分匹配值：

a. 首先，假设已经计算到next[j]，即P[0…j-1]的部分匹配值。

b. 比较P[j]和P[next[j] + 1]：
- 若P[j]等于P[next[j] + 1]，说明P[0…j]的部分匹配值为next[j] + 1。
- 若P[j]不等于P[next[j] + 1]，则需要不断向前回溯，直到找到一个能使得P[j]等于P[next[j] + 1]的位置，令j = next[j]，继续比较。
c. 重复步骤 b，直到计算出next[j]的值。
将得到的next数组作为部分匹配表返回。

下面用一个例子来说明匹配表的构建过程，模式串P为"ABABCABAB"：

初始化next数组：next = {-1, 0, 0, 1, 2, 0, 1, 2, 3}。
i = 1，j = 0：比较P[1]和P[0]，不相等，回溯，j = next[j] = -1，执行下一步。
i = 1，j = -1：比较P[1]和P[-1+1]，相等，所以next[1] = 0。
i = 2，j = 0：比较P[2]和P[0]，不相等，回溯，j = next[j] = -1，执行下一步。
i = 2，j = -1：比较P[2]和P[-1+1]，不相等，回溯，j = next[j] = 0。
i = 2，j = 0：比较P[2]和P[0]，不相等，回溯，j = next[j] = -1，执行下一步。
i = 2，j = -1：比较P[2]和P[-1+1]，不相等，回溯，j = next[j] = 0。
i = 2，j = 0：比较P[2]和P[0]，不相等，回溯，j = next[j] = -1，执行下一步。
i = 2，j = -1：比较P[2]和P[-1+1]，相等，所以next[2] = 0。

依此类推，直到计算出所有next数组的值。

构建好匹配表后，可以在匹配过程中根据next数组的值，快速调整模式串P的位置，从而提高匹配效率。

兰娃儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
串的KMP匹配

KMP算法（Knuth-Morris-Pratt算法）是一种字符串匹配算法，用于在一个文本串S中查找是否包含另一个模式串P。它的实现思路是利用已经匹配过的信息来避免不必要的回溯，从而提高匹配效率。请注意，在实际代码中，需要处理各种边界情况和异常情况，上面的代码只是一个简单的示例。希望这个KMP算法的实现代码对您有帮助！如果有其他问题，请随时向我询问。
复制链接

扫一扫