KMP模式匹配算法详解

最新推荐文章于 2023-09-16 06:00:00 发布

sixabs

最新推荐文章于 2023-09-16 06:00:00 发布

阅读量322

点赞数

分类专栏：数据结构与算法文章标签： KMP算法

本文链接：https://blog.csdn.net/sixabs/article/details/90726860

版权

数据结构与算法专栏收录该内容

10 篇文章 1 订阅

订阅专栏

1 问题描述

在进行字符串操作的时候，我们有一个需求，从给定的一个主串 $s=s_0s_1...s_{m-1}$ 中查找是否包含了某个模式串 $t=t_0t_1...t_{n-1}$ ，并返回模式串在主串中首次出现时的第一个字符在主串中的位置。用接口描述为 int indexOf(String str, int start); 调用时，int index = subStr.indexOf(str, start);这样就可以返回subStr子串在str中的起始位置了。

2 理论分析

最简单的实现方法就是暴力搜索Brute-Force：将模式串作为滑动窗口在主串上每滑动一格，然后将主串对应的字符依次与模式串比较。遇到第一个不匹配就将窗口向后滑动一格，模式串指针回退到0，主串指针与模式串对应，又依次比较，直到找到与模式串完全匹配的位置返回，若没有找到返回-1。这种方法实现简单，缺点是时间复杂度较高，为 $O(m\times n)$ ，而KMP算法的时间复杂度仅为 $O (m + n)$ 。

KMP算法核心思想：当某次匹配失败（ $s_i$ /= $t_j$ ）时，主串 $s$ 的当前比较位置 $i$ 不必回退，此时主串中的 $s_i$ 可直接和模式串某个 $t_k(0<k<j)$ 进行比较，此处下标 $k$ 的确定与主串无关，只与模式串本身的构成有关，即从模式串本身就可计算出 $k$ 的值。

理论分析：设主串 $s=s_0s_1...s_{m-1}$ ，模式串 $t=t_0t_1...t_{n-1}$ ，从主串的某个位置开始比较，当匹配不成功( $s_i$ /= $t_j$ )时，在这前面的一段一定是匹配的，即
$s_{i-j}s_{i-j+1}...s_{i-1} = t_0t_1...t_{j-1}$

若模式串中不存在任何满足式
$t_0t_1...t_{k-1} = t_{j-k}t_{j-k+1}...t_{j-1}\ \ (0<k<j) \ \ (*)$
则说明在模式串 $t_0t_1...t_{j-1}$ 中不存在前缀子串 $t_0t_1...t_{k-1}\ \ (0<k<j)$ 与主串 $s_{i-j}s_{i-j+1}...s_{i-1}$ 中的 $s_{j-k}s_{j-k+1}...s_{j-1}$ 子串相匹配，下一次可直接比较 $s_i$ 和 $t_0$ 。
若模式串中存在满足 $(*)$ 式的子串，则说明模式串 $t_0t_1...t_{n-1}$ 中的前缀子串已经与主串 $s_{i-j}s_{i-j+1}...s_{i-1}$ 中的 $s_{j-k}s_{j-k+1}...s_{j-1}$ 子串相匹配，下一次可直接比较 $s_i$ 和 $t_k$ 。

理解：KMP算法关键是确定比较失败之后子串需要向后滑动的步数k。k值求法是看模式串中匹配失败点j前面的 $t_0t_1...t_{j-1}$ 子串中，前几个字符，与后几个字符匹配的最大长度即为 $k$ 。
例如： $t_0t_1...t_{j-1}$ = abcab，k = 2; $t_0t_1...t_{j-1}$ = ababa，k = 3。

求模式串的k值数组：模式串的每一个 $t_j$ 都有一个 $k$ 值对应，这个 $k$ 值仅与模式串本身有关，而与主串 $s$ 无关。因此我们先将每一 $t_j$ 对应的位置的k值求出来，得到一个数组，这样每当我们与匹配失败时，就可以根据索引找到对应的k值。

3 算法实现

3.1 求next[j]

/**
 * 辅助函数：字符串匹配函数中求next[j]
 * @param T IString是自己实现的String类，可以当做String用
 * @return 返回模式串的所有k值数组
 */
private int[] getNext(IString T) {
	int[] nextval = new int[T.length()];
	int j = 0;
	int k = -1;
	nextval[0] = -1;
	while (j < T.length() - 1) {
		if (k == -1 || T.charAt(j) == T.charAt(k)) {
			j++;
			k++;
			if (T.charAt(j) != T.charAt(k)) {
				nextval[j] = k;
			} else {
				nextval[j] = nextval[k];
			}
		} else {
			k = nextval[k];
		}
	}
	return nextval;
}

/**
 * KMP算法
 * @param T 主串
 * @param start 从模式串的start位置开始向后搜索 
 */
@Override
public int indexOf(IString T, int start) {
	int[] next = getNext(T);
	int i = start;
	int j = 0;
	while (i < this.length() && j < T.length()) {
		if (j == -1 || this.charAt(i) == T.charAt(j)) {
			i++;
			j++;
		} else {
			j = next[j];
		}
	}
	if (j < T.length()) {
		return -1;
	} else {
		return (i - T.length());
	}
}

sixabs

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
KMP模式匹配算法详解

1 问题描述在进行字符串操作的时候，我们有一个需求，从给定的一个主串s=s0s1...sm−1s=s_0s_1...s_{m-1}s=s0s1...sm−1中查找是否包含了某个模式串t=t0t1...tn−1t=t_0t_1...t_{n-1}t=t0t1...tn−1，并返回模式串在主串中首次出现时的第一个字符在主串中的位置。用接口描述为 int indexOf(String st...
复制链接

扫一扫