数据结构——8.串

数据结构

8.串

1.1串

从数据结构角度看,串也属于线性结构,具有线性结构的共同特征;

串的个性是:串中的元素是字符

操作的对象往往不再是单个数据元素,而是一组数据元素

串(String):由零个或多个字符组成的有限序列。记为:
S = a 0 a 1 … … a n − 1 ( n ≥ 0 ) S=a_0a_1……a_{n-1} (n≥0) S=a0a1an1n0
概念:
元素$ a_i$是字符,n为串的长度,n=0时是空串(Null String)
子串:串中任意连续个字符组成的子序列被称为该串的子串,包含子串的串又被称为该子串的主串
真子串:非空且不为自身的子串,称为真子串
子串定位:子串在主串中的位置,也叫模式匹配或模型匹配
串的相等:两个串的串值相等

串运算的例子:
例,有下列四个串a,b,c,d:

a="Data Structure” b=“Data”
c=“Structure” d=“Structure”

它们的长度分别为14(空格也算)、4、9、9;
且a、b、c、d都是a的子串;
b在a中的位置(下标)是0,
c在a中的位置是5;
c和d两串相等。

1.2串的顺序存储结构

class String{
	public:
    	int bfFind(const String &s,int pos=0)const;//朴素模式匹配(BF)
		int kmpFind(const String &t,int pos=0);//改进的模式匹配(KMP)
		void getNext(const String &t,int *next);//获取next数组
    	void getNextVal(const String &t,int *nextVal);//求nextVal数组
    private:
    	char *data;//存储字符串
		int maxSize;//最大存储容量
		int curlength;//串的长度
};

1.3串的链式存储结构

最简单的链式存储结构是在一个结点的数据域中存放一个字符,这种存储结构优点是操作方便,不足之处是存储密度较低

在这里插入图片描述

另一种链式存储结构称为块链式存储结构,即在一个结点的数据域中存放多个字符,这样做提高了存储密度,但是插入和删除操作可能会在结点间大量的移动字符,因此串一般采用顺序存储结构表示和实现。

在这里插入图片描述

1.4串的模式匹配

子串的定位操作通常称做模式匹配(或模型匹配)

主串又称为目标串,子串又称为模式串

设有主串S和子串T,如果在主串S中找到一个与子串T相等的子串,则返回子串T第一次在主串S中出现的位置,即子串T的第一个字符在主串S中的位置。

朴素的模式匹配算法

算法思想:
从目标串$ S=“S_0S_1…S_{n-1}” 的 第 1 个 字 符 开 始 和 模 式 串 的第1个字符开始和模式串 1 T=“T_0T_1…T_{m-1}” $
中的第1个字符比较,若相等 S [ i ] = = T [ i ] S[i]==T[i] S[i]==T[i],则指示两串的指针i和j后移(i++,j++),继续进行下一字符的比较;

若在比较中不等$ S[i]\neq T[i] $,则主串指针 i i i 回潮到上一次比较的起始位置的后一位(即 i = i − j + 1 i=i-j+1 i=ij+1),而子串指针 j j j回湘到第1个字符(即 j = 0 j=0 j=0),继续进行下一次比较。
比较过程一直进行到匹配成功或失败为止。匹配成功时返回子串的第一个字符在主串中的位置;否则,匹配失败时返回-1。

例1:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

当匹配成功时,返回子串在主串中第一次出现的位置;当匹配失败时,返回-1;当子串是空串时返回0。

int i=0,j=0; //主串和子串的指针
if(S.curLength < T.curlLength) return -1;//主串比子串短,匹配失败
while(i < S.curlength && j < T.curlength){
	if(S.data[i]==T.data[j])//对应字符相等指针后移
		i++,j++;
	else                    //对应字符不相等时
		i=i-j+1,j=0;//主串指针回湘,子串从头开始
}
if(j>=T.curlength) return(i-T.curLength);//返回子串在主串中的位置
else return -1;

BF算法分析,设主串的长度为n,子串的长度为m。
最好情况是:主串的前m个字符刚好与子串相等,此时算法的最好时间复杂度为 O ( m ) O(m) Om。例如:主串为
“00000000000000000000000000000000000”,而子串为“0000"时。
最坏情况是:每一趟都比较到子串的最后一个字符才失配,主串将进行大量的回潮。例如:
主串为"0000000000000000000000000000000000001",而子串为“00001“时,对于此类情况,
算法的效率最低,最坏时间复杂度为 O ( n ∗ m ) O(n*m) Onm

1.5KMP算法

KMP——Knuth,Morris,Pratt三人发明

特点
主串无需回潮,主串指针一直往后移动,只有子串指针回潮在 O(n+m)的时间量级上完成串的模式匹配操作
但也牺牲了空间复杂度,空间复杂度为O(m)

假设主串 S = " S 0 S 1 … S n − 1 " S="S_0S_1…S_{n-1}" S="S0S1Sn1",模式串 T = " T 0 T 1 … T m − 1 " T="T_0T_1…T_{m-1}" T="T0T1Tm1"
S i S_i Si T i T_i Ti比较时失配,主串(指针i不回潮,设用子串中第k(k<j)个字符 T k T_k Tk取与 S i S_i Si继续比较。即:主串指针i不动,子串指针由j退到k

在这里插入图片描述

例2:在第一趟的比较中,当 i = 9 、 j = 9 i=9、j=9 i=9j=9时失配,此时我们注意到模式串T中有相等的前缀子串③和后缀子串④,也称为“首串”和
“尾串”,
又由于子串②和④相等,所以子串②和③必然相等,因此下一趟比较中,主串指针i=9不动,模式串指针j向前回潮到k=3的位置。

在这里插入图片描述

关键在于查找首串和尾串

"a b a b a"的最长首串和尾串是?是a b a
"a a a a a"的最长首串和尾串是?是a a a a
"a b c"的最长首串和尾串是?为空串

KMP算法采用以空间换时间的策略,申请一个与模式串长度相同的整型数组next,令 n e x t [ j ] = k next[j]=k next[j]=k
n e x t [ j ] next[j] next[j]表示当模式串中 T [ j ] T[j] T[j]与主串中 S [ i ] S[i] S[i]失配时,子串由j回溯到k:
在这里插入图片描述

求解next

在这里插入图片描述

手工模拟

在这里插入图片描述
在这里插入图片描述

1.6改进KMP算法

求解nextval

例4:若主串S=“aaabaaabaaaab”,模式串T=“aaaab”,则其next数组值为{-1,0,1,2,3},当 S 3 S_3 S3 T 3 T_3 T3比较失败时,根据 n e x t [ j ] next[j] next[j]值的指示,还需对 S 3 S_3 S3 T 2 、 T 1 、 T 0 T_2、T_1、T_0 T2T1T0进行三次比较。实际上,因为模式串中 T 0 、 T 1 、 T 2 、 T 3 T_0、T_1、T_2、T_3 T0T1T2T3都相等(均为’a’,因此不需要再与主串的 S 3 S_3 S3进行比较,可以直接进行 S 4 S_4 S4 T 0 T_0 T0的比较。类似的,有相同型号的黑白打印机4台,试用1台之后发现其无法打印彩色照片,那么不需要再试用其他3台打印机。

在这里插入图片描述

要求出nextval,就要先求出next

在这里插入图片描述

在这里插入图片描述

总结

虽然朴素模式匹配算法的时间复杂度是O(n*m),但在一般情况下,其实际的执行时间近似于0(n+m),因此至今仍被采用。
KMP算法是一种高效的模式匹配算法,它的核心思想是寻找模式串自身的特征,设计next数组,在此基础上达到目标串不回潮,模式串有规律回翔的目的,以减少回潮和比较的次数,但是这是建立在牺牲一定的存储空间的基础上的,KMP算法的时间复杂度为O(m+n),空间复杂度为O(m)。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值