字符串模式匹配算法的 Java 实现

最新推荐文章于 2024-07-30 16:56:56 发布

无意呢

最新推荐文章于 2024-07-30 16:56:56 发布

阅读量1.7k

点赞数 1

分类专栏：数据结构文章标签：字符串模式匹配

本文链接：https://blog.csdn.net/qq_41900081/article/details/87867933

版权

本文介绍了字符串匹配算法，包括蛮力法（BF算法）、RK算法和KMP算法。BF算法时间复杂度为O(nm)，RK算法在哈希基础上优化，KMP算法通过部分匹配表提高效率，时间复杂度为O(n+m)。文章还提到了KMP算法的改进，通过预处理提升效率。

摘要由CSDN通过智能技术生成

文章目录

- 字符串匹配算法

字符串匹配算法

检查模式P是否另一个字符串T（T代表文本）的子串，因为要检查整个定长的字符串P，所以有时这些算法称为精确字符串匹配算法。此算法通常输入为原字符串（string）和子串（pattern），要求返回子串在原字符串中首次出现的位置。比如原字符串为“ABCDEFG”，子串为“DEF”，则算法返回3。常见的算法包括：BF（Brute Force，暴力检索）、RK（Robin-Karp，哈希检索）、KMP（教科书上最常见算法）、BM（Boyer Moore）、Sunday等，下面实现BF和KMP算法。

1. 蛮力法（BF算法）

对于文本T中的每个可能的位置，检查P是否匹配，由于文本T的长度为n，模式P的长度m，所以T的最后m -1个位置无需检查，即有n-m+1个可选的位置来比较。

/**
	 * 搜索模式字符串P在文本字符串T中第一次出现的位置的蛮力解法
	 * 对于文本T中的每个可能的位置，检查P是否匹配，由于文本T的长度为n，模式P的长度为m，
	 * 所以T的最后m - 1个位置无需检查，即有n-m+1个可选的位置来比较。
	 * @param T
	 * @param P
	 * @return
	 */
	private static int[] F;
	public static int bruteForceStringMatch(String T, String P) {
   
		char[] t = T.toCharArray();
		char[] p = P.toCharArray();
		int n = t.length;
		int m = p.length;
		
		for(int i = 0; i < n - m + 1; i ++) {
   
			int j = 0;
			while(j < m && p[j] == t[i + j])
				j++;
			if(j == m) {
   
				return i;
			}				
		}	
		return -1;
	}

时间复杂度为O（（n-m+1）m）=O（nm）
空间复杂度为O（1）

2. RK算法：

RK算法是对BF算法的一个改进：在BF算法中，每一个字符都需要进行比较，并且当我们发现首字符匹配时仍然需要比较剩余的所有字符。而在RK算法中，就尝试只进行一次比较来判定两者是否相等。
RK算法也可以进行多模式匹配，在论文查重等实际应用中一般都是使用此算法。
这里写图片描述
首先计算子串的HASH值，之后分别取原字符串中子串长度的字符串计算HASH值，比较两者是否相等：如果HASH值不同，则两者必定不匹配，如果相同，由于哈希冲突存在，也需要按照BF算法再次判定。
按照此例子，首先计算子串“DEF”HASH值为Hd，之后从原字符串中依次取长度为3的字符串“ABC”、“BCD”、“CDE”、“DEF”计算HASH值，分别为Ha、Hb、Hc、Hd，当Hd相等时，仍然要比较一次子串“DEF”和原字符串“DEF”是否一致。
时间复杂度：最坏情况：O（MN），最好情况：O（m+n）