数据结构——8.串

最新推荐文章于 2023-10-31 19:18:01 发布

stranger-domic

最新推荐文章于 2023-10-31 19:18:01 发布

阅读量1.1k

点赞数 1

分类专栏：数据结构与算法文章标签：算法数据结构

本文链接：https://blog.csdn.net/qq_51330164/article/details/117605914

版权

数据结构与算法专栏收录该内容

10 篇文章 0 订阅

订阅专栏

数据结构

8.串

1.1串

从数据结构角度看，串也属于线性结构，具有线性结构的共同特征；

串的个性是：串中的元素是字符；

操作的对象往往不再是单个数据元素，而是一组数据元素

串（String）：由零个或多个字符组成的有限序列。记为：
$S=a_0a_1……a_{n-1} （n≥0）$
概念：
元素$ a_i$是字符，n为串的长度，n=0时是空串（Null String）
子串：串中任意连续个字符组成的子序列被称为该串的子串，包含子串的串又被称为该子串的主串
真子串：非空且不为自身的子串，称为真子串
子串定位：子串在主串中的位置，也叫模式匹配或模型匹配
串的相等：两个串的串值相等

串运算的例子：
例，有下列四个串a，b，c，d：

a="Data Structure” b=“Data”
c=“Structure” d=“Structure”

它们的长度分别为14(空格也算)、4、9、9；
且a、b、c、d都是a的子串；
b在a中的位置（下标）是0，
c在a中的位置是5；
c和d两串相等。

1.2串的顺序存储结构

class String{
	public:
    	int bfFind(const String &s,int pos=0)const;//朴素模式匹配（BF）
		int kmpFind(const String &t,int pos=0);//改进的模式匹配（KMP）
		void getNext(const String &t,int *next);//获取next数组
    	void getNextVal(const String &t,int *nextVal);//求nextVal数组
    private:
    	char *data;//存储字符串
		int maxSize;//最大存储容量
		int curlength;//串的长度
};

1.3串的链式存储结构

最简单的链式存储结构是在一个结点的数据域中存放一个字符，这种存储结构优点是操作方便，不足之处是存储密度较低

在这里插入图片描述

另一种链式存储结构称为块链式存储结构，即在一个结点的数据域中存放多个字符，这样做提高了存储密度，但是插入和删除操作可能会在结点间大量的移动字符，因此串一般采用顺序存储结构表示和实现。

在这里插入图片描述

1.4串的模式匹配

子串的定位操作通常称做模式匹配（或模型匹配）

主串又称为目标串，子串又称为模式串

设有主串S和子串T，如果在主串S中找到一个与子串T相等的子串，则返回子串T第一次在主串S中出现的位置，即子串T的第一个字符在主串S中的位置。

朴素的模式匹配算法

算法思想：
从目标串$ S=“S_0S_1…S_{n-1}” $的第 1 个字符开始和模式串$ T=“T_0T_1…T_{m-1}” $
中的第1个字符比较，若相等 $S [i] = = T [i]$ ，则指示两串的指针i和j后移（i++，j++），继续进行下一字符的比较；

若在比较中不等$ S[i]\neq T[i] $，则主串指针 $i$ 回潮到上一次比较的起始位置的后一位（即 $i = i - j + 1$ ），而子串指针 $j$ 回湘到第1个字符（即 $j = 0$ ），继续进行下一次比较。
比较过程一直进行到匹配成功或失败为止。匹配成功时返回子串的第一个字符在主串中的位置；否则，匹配失败时返回-1。

例1：

在这里插入图片描述

当匹配成功时，返回子串在主串中第一次出现的位置；当匹配失败时，返回-1；当子串是空串时返回0。

int i=0,j=0; //主串和子串的指针
if(S.curLength < T.curlLength) return -1;//主串比子串短，匹配失败
while(i < S.curlength && j < T.curlength){
	if(S.data[i]==T.data[j])//对应字符相等指针后移
		i++,j++;
	else                    //对应字符不相等时
		i=i-j+1，j=0;//主串指针回湘，子串从头开始
}
if(j>=T.curlength) return(i-T.curLength);//返回子串在主串中的位置
else return -1;

BF算法分析，设主串的长度为n，子串的长度为m。
最好情况是：主串的前m个字符刚好与子串相等，此时算法的最好时间复杂度为 $O （ m ）$ 。例如：主串为
“00000000000000000000000000000000000”，而子串为“0000"时。
最坏情况是：每一趟都比较到子串的最后一个字符才失配，主串将进行大量的回潮。例如：
主串为"0000000000000000000000000000000000001"，而子串为“00001“时，对于此类情况，
算法的效率最低，最坏时间复杂度为 $O （ n * m ）$ 。

1.5KMP算法

KMP——Knuth，Morris，Pratt三人发明

特点
主串无需回潮，主串指针一直往后移动，只有子串指针回潮在 O（n+m）的时间量级上完成串的模式匹配操作
但也牺牲了空间复杂度，空间复杂度为O（m）

假设主串 $S="S_0S_1…S_{n-1}"$ ，模式串 $T="T_0T_1…T_{m-1}"$ ，
若 $S_i$ 与 $T_i$ 比较时失配，主串（指针i不回潮，设用子串中第k（k<j）个字符 $T_k$ 取与 $S_i$ 继续比较。即：主串指针i不动，子串指针由j退到k

在这里插入图片描述

例2：在第一趟的比较中，当 $i = 9 、 j = 9$ 时失配，此时我们注意到模式串T中有相等的前缀子串③和后缀子串④，也称为“首串”和
“尾串”，
又由于子串②和④相等，所以子串②和③必然相等，因此下一趟比较中，主串指针i=9不动，模式串指针j向前回潮到k=3的位置。

在这里插入图片描述

关键在于查找首串和尾串

"a b a b a"的最长首串和尾串是？是a b a
"a a a a a"的最长首串和尾串是？是a a a a
"a b c"的最长首串和尾串是？为空串

KMP算法采用以空间换时间的策略，申请一个与模式串长度相同的整型数组next，令 $n e x t [j] = k$ ，
则 $n e x t [j]$ 表示当模式串中 $T [j]$ 与主串中 $S [i]$ 失配时，子串由j回溯到k：
在这里插入图片描述

求解next

在这里插入图片描述

手工模拟

在这里插入图片描述

1.6改进KMP算法

求解nextval

例4：若主串S=“aaabaaabaaaab”，模式串T=“aaaab”，则其next数组值为{-1，0，1，2，3}，当 $S_3$ 与 $T_3$ 比较失败时，根据 $n e x t [j]$ 值的指示，还需对 $S_3$ 与 $T_2、T_1、T_0$ 进行三次比较。实际上，因为模式串中 $T_0、T_1、T_2、T_3$ 都相等（均为’a’，因此不需要再与主串的 $S_3$ 进行比较，可以直接进行 $S_4$ 与 $T_0$ 的比较。类似的，有相同型号的黑白打印机4台，试用1台之后发现其无法打印彩色照片，那么不需要再试用其他3台打印机。

在这里插入图片描述

要求出nextval，就要先求出next

在这里插入图片描述

总结

虽然朴素模式匹配算法的时间复杂度是O（n*m），但在一般情况下，其实际的执行时间近似于0（n+m），因此至今仍被采用。
KMP算法是一种高效的模式匹配算法，它的核心思想是寻找模式串自身的特征，设计next数组，在此基础上达到目标串不回潮，模式串有规律回翔的目的，以减少回潮和比较的次数，但是这是建立在牺牲一定的存储空间的基础上的，KMP算法的时间复杂度为O（m+n），空间复杂度为O（m）。

stranger-domic

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据结构——8.串

数据结构8.串1.1串从数据结构角度看，串也属于线性结构，具有线性结构的共同特征；串的个性是：串中的元素是字符；操作的对象往往不再是单个数据元素，而是一组数据元素串（String）：由零个或多个字符组成的有限序列。记为：S=a0a1……an−1（n≥0） S=a_0a_1……a_{n-1} （n≥0）S=a0a1……an−1（n≥0）概念：元素$ a_i$是字符，n为串的长度，n=0时是空串（Null String）子串：串中任意连续个字符组成的子序列被称为该串的子串，包含子串的串
复制链接

扫一扫