深入理解KMP算法：字符串匹配的高效解决方案-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00164/article/details/148508699

深入理解KMP算法：字符串匹配的高效解决方案

interview 项目地址: https://gitcode.com/gh_mirrors/intervi/interview

什么是KMP算法

KMP算法（Knuth-Morris-Pratt算法）是一种高效的字符串匹配算法，由Donald Knuth、Vaughan Pratt和James Morris三位计算机科学家于1977年联合发表。该算法解决了在文本串中查找模式串的问题，将时间复杂度从传统的O(m×n)优化到O(m+n)，其中m是模式串长度，n是文本串长度。

为什么需要KMP算法

在传统的暴力匹配算法中，每当发现不匹配时，模式串会回退到起始位置，文本串也会回退到上次匹配开始的下一个位置。这种回退导致了大量的重复比较，效率低下。KMP算法的核心思想是利用已经匹配过的信息，避免不必要的回退，从而实现线性时间的匹配。

KMP算法的核心组件

部分匹配表（Next数组）

部分匹配表是KMP算法的核心，它记录了模式串自身的匹配信息。这个表的作用是让算法无需多次匹配文本串中的任何字符，通过"预搜索"模式串本身，生成一个包含所有可能失配位置对应可以绕过最多无效字符的列表。

Next数组的计算方法

Next数组表示的是模式串前缀和后缀的最长公共元素长度：

Next[0] = -1（特殊标记，表示需要移动模式串）
对于j>0，Next[j] = MAX{ k | 0 < k < j | "t0 t1 ... tk" = "t(j-k) t(j-k+1) ... t(j-1)" }

示例

考虑模式串"ABCDABD"：

| i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | |---|----|----|----|----|----|----|----| | t[i] | A | B | C | D | A | B | D | | next[i] | -1 | 0 | 0 | 0 | 0 | 1 | 2 |

NextVal数组（优化后的Next数组）

NextVal数组是对Next数组的优化，用于解决模式串中存在连续重复字符时的效率问题。其计算规则为：

如果t[next[j]] = t[j]，则nextval[j] = nextval[next[j]]，否则nextval[j] = next[j]。

示例

考虑模式串"abcabaa"：

| i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | |---|----|----|----|----|----|----|----| | t | a | b | c | a | b | a | a | | next[j] | -1 | 0 | 0 | 0 | 1 | 2 | 1 | | nextval[j] | -1 | 0 | 0 | -1 | 0 | 2 | 1 |

在这个例子中，t[next[4]] = t[1] = b，而t[4] = b，所以nextval[4] = nextval[next[4]] = nextval[1] = 0。

KMP算法的工作流程

预处理阶段：计算模式串的Next数组或NextVal数组
匹配阶段：
- 初始化文本串指针i和模式串指针j
- 当i小于文本串长度且j小于模式串长度时：
  - 如果j=-1或当前字符匹配，则i和j都加1
  - 否则，j回退到next[j]的位置
- 如果j等于模式串长度，则匹配成功，返回i-j
- 否则匹配失败