字符串匹配问题

芸编蕴香

已于 2022-05-23 21:20:00 修改

阅读量165

点赞数

分类专栏：算法导论文章标签：字符串匹配

于 2022-05-19 19:45:46 首次发布

本文链接：https://blog.csdn.net/u013894391/article/details/124870063

版权

算法导论专栏收录该内容

3 篇文章 0 订阅

订阅专栏

字符串匹配问题——算法导论学习记录

字符串匹配问题

字符串匹配问题

开始编辑时间：2022年5月19日
完成撰写时间：

1. 问题描述

在文本T中找到某个模式P出现的所有位置.若 $T [S + 1 . . s + m] = P [1 . . m]$ ，则称模式P在文本T中出现，偏移s是有效偏移。

1.1 算法概述

每一个字符串匹配算法：

第一步：基于模式进行预处理
第二步：找到所有有效偏移（匹配）

每个算法的预处理时间和匹配时间如下,总运行时间是预处理时间+匹配时间。

算法	预处理时间	匹配时间
朴素算法	0	$O ((n - m + 1) m)$
Rabin-Karp	$\Theta(m)$	$O ((n - m + 1) m)$
有限自动机算法	$O(m\|\Sigma\|)$	$\Theta(n)$
Knuth-Morris-Pratt	$\Theta(m)$	$\Theta(n)$

$\Sigma$ : 字符串中字符的集合

$|\Sigma|$ : 集合的长度

1.2 相关概念

连结：字符串x和y的连结用"xy“表示
前缀：x=wy,则w是x的前缀， $\sqsubset x$
后缀：x=yw,则w是x的后缀， $\sqsupset x$
后缀重叠引理：若x,y均是z的后缀，且 $\le |y|$ ，则 $\sqsupset y$
字符串相等判断：假设比较是从左向右进行，并且遇到第一个字符不匹配时终止，则需要 $\Theta(t+1)$ ,其中t是x，y的最长公共前缀长度。

2. 朴素算法

对每一个偏移均进行检测是否相等。直到所有的偏移均检测完成。

NAVIE-STRING-MATCHER(T,P)
n = T.length
m = P.length
for s = 0 to n-m
    if P[1..m] == T[s+1..s+m]
        print "Patern occurs with shift" s

该算法最坏情况下运行时间为： $O ((n - m + 1) m)$ 。这是因为该算法完全忽略了检测无效偏移s时获得的文本信息。后续算法因利用了此信息，算法效率更高。

2.1 算法导论习题讨论

32.1-1

请添加图片描述

32.1-2

由于模式P中的所有字符都不相同，因此：设P[1…m]和T[s+1…s+m]的公共前缀长度为t。则NAVIE-STRING-MATCHER(T,P)算法中偏移量s每次比较后不进行s+1操作，进行s+t即可达到 $O (n)$

32.1-3

分析：循环体进行了（n-m+1)次循环，每次循环需要判断两个长度为m的字符串是否相等。若存在不相等，或完全匹配时终止。例如：第一个字符不相等，则立刻终止。

证明：
令P为单个字符比较匹配的概率，则1-P为失配的概率。 $P=\cfrac{d}{d*d}=d^{-1}$

比较v次数	概率	比较次数*概率
1	$(1 - P)$	1*(1-P)
2	$P (1 - P)$	2P(1-P)
3	$P^{2}(1-P)$	$3(P^{2}(1-P))$
…	…	…
m	$P^{m-1}(1-P) + P^{m}$	$m(P^{m-1}(1-P) + P^{m})$

$\sum_{k=1}^m kP^{k-1}(1-P) + mP^{m}$
$\sum_{k=1}^m P^{m-1} = \cfrac{1-d^{-m}}{1-d^{-1}}$

令 $f(x)=\cfrac{1-x^{-m}}{1-x^{-1}}$ ,求导可知x>=2时，导数为负，函数在x>=2时单掉递减。而 $f(2)=2(1-d^{-m})<=2$ .因此得证:朴素算法在字符集 $\sum_{d}$ 中的预计比较次数：

$(n-m+1)\cfrac{1-d^{-m}}{1-d^{-1}}<2(n-m+1)$

由此可知，对于随机字符串，朴素算法的平均效率为 $O (2 (n - m + 1))$

32.1-4

改造上述朴素算法，将模式按照间隔符进行分割，分割成多个子字符串进行处理，在前一个子字符串匹配后，从文本匹配的下一个位置开始，匹配下一个子字符串。设*表示间隔字符

NAVIE-STRING-MATCHER-GAP(T,P)
n = T.length
m = P.length
p_list = P.split("*")
n_start = 0
for p_t in p_list:
    p_m = p_t.length
    for s = n_start to n-p_m:
        if p_t[1..p_m] == T[n_start+1..n_start+p_m]
            n_start += s+1
        else:
            return false
return true

芸编蕴香

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串匹配问题

字符串匹配问题开始编辑时间：2022年5月19日完成撰写时间：1. 问题描述在文本T中找到某个模式P出现的所有位置.若T[S+1..s+m]=P[1..m]T[S+1..s+m]=P[1..m]T[S+1..s+m]=P[1..m]，则称模式P在文本T中出现，偏移s是有效偏移。1.1 算法概述每一个字符串匹配算法：第一步：基于模式进行预处理第二步：找到所有有效偏移（匹配）每个算法的预处理时间和匹配时间如下,总运行时间是预处理时间+匹配时间。算法预处理时间匹配时间
复制链接

扫一扫