字符串匹配算法初探

最新推荐文章于 2020-03-13 22:53:03 发布

WaxAndWane1996

最新推荐文章于 2020-03-13 22:53:03 发布

阅读量408

点赞数 1

分类专栏：算法

本文链接：https://blog.csdn.net/qq_34563932/article/details/89471344

版权

本文探讨了字符串匹配问题，包括基本概念、朴素匹配算法及其优化，以及Rabin-Karp算法。朴素算法的时间复杂度在最坏情况下为O(n²)，而Rabin-Karp算法引入了哈希函数，预处理时间为O(m)，匹配时间是O((n-m+1)m)。文章还讨论了如何处理模式串中存在间隔字符的情况。

摘要由CSDN通过智能技术生成

近日刷题，遇到诸多关于字符串匹配的问题。再次打开CLRS，学习字符串匹配该章，又有感受良多。

要弄清字符串匹配的过程，需先明确以下几个定义：

1.匹配串（文本）：待匹配的字符串，是一个长度为n的字符数组T[1..n]

2.模式串：匹配的基准串，是一个长度为m的字符数组P[1..m]，其中m≤n

3.有效位移：若存在位移s∈[0,n-m]，且T[s+1..s+m]=P[1..m]，那么就说明模式P在文本T中出现且位移为s，此时称s为一个有效位移，否则称s为一个无效位移

许多字符串匹配算法的基本流程主要分为两大部分：预处理和匹配。而区分匹配效率的关键在于不同算法的匹配策略。

特此说明：下述讲解中存在文本和模式的数组下标，一概从1开始；代码中实现仍是从0开始。

首先看朴素字符串匹配算法，也称为暴力匹配算法（BF）。

核心在于滑动窗口的移动速率只有一位，只要模式与文本在某字符位置k不匹配，下一次匹配就要从文本的k+1位置开始，而模式串则要从头匹配。这样很明显是耗费大量时间的。比如下图中文本为acaabc，模式为aab，s为匹配的指针位置：

当s=1时，文本T[2]=c,而模式P[2]=a不匹配，此时下一次匹配的滑动窗口向后移动一位，从T[3]=a开始，而对应的模式P应从头开始匹配。该匹配算法虽然没有预处理过程，但是匹配时间为O((n-m+1)m)，倘若m=n/2，那么时间复杂度将变为O(n²)。

伪代码为：

NAIVE-STRING-MATCHER(T,P)

1 n ← length[T]

2 m ← length[P]

3 for s ← 0 to n-m

4 do if P[1..m]=T[s+1..s+m]

5 then print "Pattern occurs with shift" s

C++代码实现如下：

//只匹配第一次出现的字符串 
int Naive_String_Matcher(string T,string P){//T为匹配串，P为模式串 
	int n=T.size();
	int m=P.size();
	for(int s=0;s<n-m+1;s++){
		for(int k=0;

最低0.47元/天解锁文章

WaxAndWane1996

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录