字符串经典匹配算法之shift_and算法

最新推荐文章于 2024-07-25 11:27:31 发布

非英杰不图

最新推荐文章于 2024-07-25 11:27:31 发布

阅读量591

点赞数 1

分类专栏：算法文章标签：算法数据结构 c++ leetcode 开发语言

本文链接：https://blog.csdn.net/qq_34603425/article/details/128277099

版权

算法专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文章目录

背景知识回顾
shift_and 算法理论介绍
shift_and 算法代码实现
shift_and 算法应用场景

背景知识回顾

之前的文章中讲了字符串匹配问题中的单模匹配问题，即从一段文本串中找到另一个字符串是否出现过。

母串(文本串)是指要从哪个字符串中查找，模式串指的是要查找哪个字符。

之后介绍了暴力匹配算法，即从文本串中逐位向后和模式串比较。

此外还介绍过KMP匹配算法，这种算法适合处理流式字符。

还介绍了较为简单的Sunday算法，适合在一长段文本中寻找一个固定的模式串。

shift_and 算法理论介绍

shift_and算法的总体思路是把模式串预处理成一种特殊编码形式，然后根据这种编码形式去逐位匹配文本串。下面依次介绍。

模式串的预处理
假设模式串为 $" a c b a c e "$ , 对每个字符分别进行编码。

$" a "$ 出现在第0位和第3位，则编码结果为 $2^0 + 2^3 = 9$ ；

$" b "$ 出现在第2位，则编码结果为 $2^2 = 4$ ；

依次类推，每一位的编码结果如下：
文本串的逐位匹配
针对每一位文本串字符，定义一个对应的状态码数字P，P的第 $i$ 位为1，则表示以这一位文本串为末尾时，能和模式串的 $0$ 到 $i$ 位置能完全匹配。

例如模式串为 $" a c b a c e "$ , 对于文本串 $" . . . a c b a e f . . . "$ 的第二个 $" a "$ 字符，以这个 $" a "$ 字符作为结尾时，其可能和模式串的第0位 $p a t t e r n [0]$ 完全匹配，也可能和前三位 $p a t t e r n [0 : 3]$ 完全匹配，所以这个 $" a "$ 字符的状态码就是 $P = 2^0+2^3 = 9$ 。
在这里插入图片描述

初始状态 $P = 0$ 。

假设之前的状态码 $P$ 已经确定，例如上面的例子 $P = 2^0 + 2^3$ ，那么对于一个新的文本串字符 $t e x t [i]$ 而言，已知模式串的前0位或前3位能被完全匹配，那么就检查text[i]和模式串的第1位或第4位是不是能完全匹配。

即新的状态码应等于 $\ \& \ (code[text[i]])$ ；

还有一种情况如果 $c o d e [t e x t [i]]$ 正好等于1，即 $t e x t [i]$ 字符正好是模式串的第0位，那么新的P的二进制第0位也应该是1.

综合上面两种情况，新的P 应为 $\ \ | \ \ 1) \ \ \& \ \ code[text[i]]$

如果匹配到某一位发现状态码P的二进制第n位是1(n为模式串字符的长度)，则说明模式串被完全匹配，即匹配成功。

shift_and 算法代码实现

#include <string>
#include <iostream>
#include <cstdio>

using namespace std;

int shift_and(const char *text, const char *pattern) {
  #define BASE 256
	int code[BASE], n, P = 0;
	for (int i = 0; i < BASE; i++) code[i] = 0; //状态码初始化为 0
	for (n = 0; pattern[n]; n++) code[pattern[n]] |= (1 << (n)); //模式串预处理
	for (int i; text[i]; i++) {
		P = (P << 1 | 1) & code[text[i]];  //状态码转换
		if (P & (1 << (n - 1))) return i - n + 1; //P的二进制第n位为1，说明匹配成功
	}
	return -1;
}

#define TEST(func, s, t) {\
	printf("%s(\"%s\",  \"%s\") = %d\n", #func, s, t, func(s, t));\
}\

int main() {
	char s[200], t[200];
	while (cin >> s >> t) {
		TEST(shift_and, s, t);
	}
	return 0;
}

代码总结：由代码可见，算法的时间复杂度为O(n)。

shift_and 算法应用场景

相当于状态机：由代码部分可见，整个匹配过程主要在于状态码P的转换，即相当于状态机。
可以处理流式数据：代码部分亦可看出，对于 $t e x t [i]$ 字符状态码的确定，不依赖后面的字符，所以shift_and算法也可以用于处理流式数据。
可以处理复杂的正则匹配：例如模式串为正则表达式： $\& (b | c) \& e \& (b | c | f)$ ，即希望匹配到的第一位为 $a$ 或 $b$ 或 $c$ ，第二位为 $b$ 或 $c$ ，第三位为 $e$ ，第四位为 $b$ 或 $c$ 或 $f$ 。这种情况下同样可以利用上面shift_and对应的预处理编码方法，例如 $a$ 只在第0位出现，则 $code[a] = 1 = 2^0$ ， $b$ 在第0,1,3位出现，则 $code[b] = 2^0 + 2^1 + 2^3 = 11$ 。后面的过程就像上面代码中那样正常匹配即可。

非英杰不图

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
字符串经典匹配算法之shift_and算法

字符串经典匹配算法之shift_and算法。shift_and算法的总体思路是把模式串预处理成一种特殊编码形式，然后根据这种编码形式去逐位匹配文本串。shift_and算法的时间复杂度为O(n)，可以用于处理流式数据，同时可以用于处理复杂的正则表达式，比如模式串的每一位可能是多个字符。因为shift_and算法的预处理兼容性非常强。
复制链接

扫一扫