学习两种字符串匹配算法BF算法和RK算法

最新推荐文章于 2021-09-01 17:08:13 发布

lavachen

最新推荐文章于 2021-09-01 17:08:13 发布

阅读量409

点赞数 1

分类专栏：算法

本文链接：https://blog.csdn.net/ChasingDreamsCQ/article/details/105955313

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

问题：
给你两个字符串A和B，请你判断B是否是A的子串，并且返回B在A中第一次出现的位置。
示例1：
A：abcdefg
B：cde
return 2;
示例2：
A：abcdefg
B：acg
return -1;

解决方式1：BF算法（Brute Force，暴力算法）
示例：
A：abcdefg
B：cde
第一步：把B的首位字母©和A首位字母(a)比较，两者并不匹配
第二步：把B的首位字母©和A第二位字母(b)比较，两者并不匹配
第三步：把B的首位字母©和A第三位字母©比较，两者匹配
第四步：把B的第二位字母(d)和A第四位字母(d)比较，两者匹配
…
由此得到结果，模式串 cde 是主串 abcdefg的子串，在主串第一次出现的位置下标是 2。
优点：能解决问题
缺点：在某些极端情况下算法效率非常低
例如：
A：aaaaaaaaaaaaaaaaaab
B：aaab
上述情况，在每一轮进行字符匹配时，B的前三个字符a都和A中的字符相匹配，一直检查到B最后一个字符b，才发现不匹配,这样一来，两个字符串在每一轮都需要白白比较4次，显然非常浪费。
假设主串的长度是m，模式串的长度是n，那么在这种极端情况下，BF算法的最坏时间复杂度是O（mn）。

更优方案：RK算法（由算法两位发明者Rabin和Karp的名字命名的）
BF算法只是简单粗暴对两个字符串中的所有字符串依次比较，RK算法比较两个字符串的hash值。RK算法的核心思想类似于hash函数。对于hash函数有了解的同学应该知道，我们通过hash函数可以将一个字符串映射成一个数字（hash值）。当两个字符串的hash值不相同时，说明这两个字符串一定不匹配，而相同时则说明两个字符串是有可能匹配的，那么就需要进一步验证。
代码如下：

	public static int rabinKarp(String str, String pattern) {
		// 主串长度
		int m = str.length();
		// 模式串的长度
		int n = pattern.length();
		// 计算模式串的hash值
		int patternCode = hash(pattern);
		// 计算主串当中第一个和模式串等长的子串hash值
		int strCode = hash(str.substring(0, n));
		// 用模式串的hash值和主串的局部hash值比较。
		// 如果匹配，则进行精确比较；如果不匹配，计算主串中相邻子串的hash值。
		for (int i = 0; i < m - n + 1; i++) {
			if (strCode == patternCode && compareString(i, str, pattern)) {
				return i;
			}
			// 如果不是最后一轮，更新主串从i到i+n的hash值
			if (i < m - n) {
				strCode = nextHash(str, strCode, i, n);
			}
		}
		return -1;
	}

	private static int hash(String str) {
		int hashcode = 0;
		// 这里采用最简单的hashcode计算方式：
		// 把a当做1，把b当中2，把c当中3.....然后按位相加
		for (int i = 0; i < str.length(); i++) {
			hashcode += str.charAt(i) - 'a';
		}
		return hashcode;
	}

	private static int nextHash(String str, int hash, int index, int n) {
		hash -= str.charAt(index) - 'a';
		hash += str.charAt(index + n) - 'a';
		return hash;
	}

	private static boolean compareString(int i, String str, String pattern) {
		String strSub = str.substring(i, i + pattern.length());
		return strSub.equals(pattern);
	}

	public static void main(String[] args) {
		String str = "aacdesadsdfer";
		String pattern = "adsd";
		System.out.println("第一次出现的位置:" + rabinKarp(str, pattern));
	}

缺点：当哈希冲突过多，RK算法需要逐个比较，RK算法就退化成了BF算法。

更优的算法如KMP，Sunday等算法，自行了解。

lavachen

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习两种字符串匹配算法BF算法和RK算法

问题：给你两个字符串A和B，请你判断B是否是A的子串，并且返回B在A中第一次出现的位置。示例1：A：abcdefgB：cdereturn 2;示例2：A：abcdefgB：acgreturn -1;解决方式1：BF算法（Brute Force，暴力算法）示例：A：abcdefgB：cde第一步：把B的首位字母©和A首位字母(a)比较，两者并不匹配第二步：把B的首位字母...
复制链接

扫一扫

专栏目录