数据结构
8.串
1.1串
从数据结构角度看,串也属于线性结构,具有线性结构的共同特征;
串的个性是:串中的元素是字符;
操作的对象往往不再是单个数据元素,而是一组数据元素
串(String):由零个或多个字符组成的有限序列。记为:
S
=
a
0
a
1
…
…
a
n
−
1
(
n
≥
0
)
S=a_0a_1……a_{n-1} (n≥0)
S=a0a1……an−1(n≥0)
概念:
元素$ a_i$是字符,n为串的长度,n=0时是空串(Null String)
子串:串中任意连续个字符组成的子序列被称为该串的子串,包含子串的串又被称为该子串的主串
真子串:非空且不为自身的子串,称为真子串
子串定位:子串在主串中的位置,也叫模式匹配或模型匹配
串的相等:两个串的串值相等
串运算的例子:
例,有下列四个串a,b,c,d:
a="Data Structure” b=“Data”
c=“Structure” d=“Structure”
它们的长度分别为14(空格也算)、4、9、9;
且a、b、c、d都是a的子串;
b在a中的位置(下标)是0,
c在a中的位置是5;
c和d两串相等。
1.2串的顺序存储结构
class String{
public:
int bfFind(const String &s,int pos=0)const;//朴素模式匹配(BF)
int kmpFind(const String &t,int pos=0);//改进的模式匹配(KMP)
void getNext(const String &t,int *next);//获取next数组
void getNextVal(const String &t,int *nextVal);//求nextVal数组
private:
char *data;//存储字符串
int maxSize;//最大存储容量
int curlength;//串的长度
};
1.3串的链式存储结构
最简单的链式存储结构是在一个结点的数据域中存放一个字符,这种存储结构优点是操作方便,不足之处是存储密度较低
另一种链式存储结构称为块链式存储结构,即在一个结点的数据域中存放多个字符,这样做提高了存储密度,但是插入和删除操作可能会在结点间大量的移动字符,因此串一般采用顺序存储结构表示和实现。
1.4串的模式匹配
子串的定位操作通常称做模式匹配(或模型匹配)
主串又称为目标串,子串又称为模式串
设有主串S和子串T,如果在主串S中找到一个与子串T相等的子串,则返回子串T第一次在主串S中出现的位置,即子串T的第一个字符在主串S中的位置。
朴素的模式匹配算法
算法思想:
从目标串$ S=“S_0S_1…S_{n-1}”
的
第
1
个
字
符
开
始
和
模
式
串
的第1个字符开始和模式串
的第1个字符开始和模式串 T=“T_0T_1…T_{m-1}” $
中的第1个字符比较,若相等
S
[
i
]
=
=
T
[
i
]
S[i]==T[i]
S[i]==T[i],则指示两串的指针i和j后移(i++,j++),继续进行下一字符的比较;
若在比较中不等$ S[i]\neq T[i] $,则主串指针
i
i
i 回潮到上一次比较的起始位置的后一位(即
i
=
i
−
j
+
1
i=i-j+1
i=i−j+1),而子串指针
j
j
j回湘到第1个字符(即
j
=
0
j=0
j=0),继续进行下一次比较。
比较过程一直进行到匹配成功或失败为止。匹配成功时返回子串的第一个字符在主串中的位置;否则,匹配失败时返回-1。
例1:
当匹配成功时,返回子串在主串中第一次出现的位置;当匹配失败时,返回-1;当子串是空串时返回0。
int i=0,j=0; //主串和子串的指针
if(S.curLength < T.curlLength) return -1;//主串比子串短,匹配失败
while(i < S.curlength && j < T.curlength){
if(S.data[i]==T.data[j])//对应字符相等指针后移
i++,j++;
else //对应字符不相等时
i=i-j+1,j=0;//主串指针回湘,子串从头开始
}
if(j>=T.curlength) return(i-T.curLength);//返回子串在主串中的位置
else return -1;
BF算法分析,设主串的长度为n,子串的长度为m。
最好情况是:主串的前m个字符刚好与子串相等,此时算法的最好时间复杂度为
O
(
m
)
O(m)
O(m)。例如:主串为
“00000000000000000000000000000000000”,而子串为“0000"时。
最坏情况是:每一趟都比较到子串的最后一个字符才失配,主串将进行大量的回潮。例如:
主串为"0000000000000000000000000000000000001",而子串为“00001“时,对于此类情况,
算法的效率最低,最坏时间复杂度为
O
(
n
∗
m
)
O(n*m)
O(n∗m)。
1.5KMP算法
KMP——Knuth,Morris,Pratt三人发明
特点
主串无需回潮,主串指针一直往后移动,只有子串指针回潮在 O(n+m)的时间量级上完成串的模式匹配操作
但也牺牲了空间复杂度,空间复杂度为O(m)
假设主串
S
=
"
S
0
S
1
…
S
n
−
1
"
S="S_0S_1…S_{n-1}"
S="S0S1…Sn−1",模式串
T
=
"
T
0
T
1
…
T
m
−
1
"
T="T_0T_1…T_{m-1}"
T="T0T1…Tm−1",
若
S
i
S_i
Si与
T
i
T_i
Ti比较时失配,主串(指针i不回潮,设用子串中第k(k<j)个字符
T
k
T_k
Tk取与
S
i
S_i
Si继续比较。即:主串指针i不动,子串指针由j退到k
例2:在第一趟的比较中,当
i
=
9
、
j
=
9
i=9、j=9
i=9、j=9时失配,此时我们注意到模式串T中有相等的前缀子串③和后缀子串④,也称为“首串”和
“尾串”,
又由于子串②和④相等,所以子串②和③必然相等,因此下一趟比较中,主串指针i=9不动,模式串指针j向前回潮到k=3的位置。
关键在于查找首串和尾串
"a b a b a"的最长首串和尾串是?是a b a
"a a a a a"的最长首串和尾串是?是a a a a
"a b c"的最长首串和尾串是?为空串
KMP算法采用以空间换时间的策略,申请一个与模式串长度相同的整型数组next,令
n
e
x
t
[
j
]
=
k
next[j]=k
next[j]=k,
则
n
e
x
t
[
j
]
next[j]
next[j]表示当模式串中
T
[
j
]
T[j]
T[j]与主串中
S
[
i
]
S[i]
S[i]失配时,子串由j回溯到k:
求解next
手工模拟
1.6改进KMP算法
求解nextval
例4:若主串S=“aaabaaabaaaab”,模式串T=“aaaab”,则其next数组值为{-1,0,1,2,3},当 S 3 S_3 S3与 T 3 T_3 T3比较失败时,根据 n e x t [ j ] next[j] next[j]值的指示,还需对 S 3 S_3 S3与 T 2 、 T 1 、 T 0 T_2、T_1、T_0 T2、T1、T0进行三次比较。实际上,因为模式串中 T 0 、 T 1 、 T 2 、 T 3 T_0、T_1、T_2、T_3 T0、T1、T2、T3都相等(均为’a’,因此不需要再与主串的 S 3 S_3 S3进行比较,可以直接进行 S 4 S_4 S4与 T 0 T_0 T0的比较。类似的,有相同型号的黑白打印机4台,试用1台之后发现其无法打印彩色照片,那么不需要再试用其他3台打印机。
要求出nextval,就要先求出next
总结
虽然朴素模式匹配算法的时间复杂度是O(n*m),但在一般情况下,其实际的执行时间近似于0(n+m),因此至今仍被采用。
KMP算法是一种高效的模式匹配算法,它的核心思想是寻找模式串自身的特征,设计next数组,在此基础上达到目标串不回潮,模式串有规律回翔的目的,以减少回潮和比较的次数,但是这是建立在牺牲一定的存储空间的基础上的,KMP算法的时间复杂度为O(m+n),空间复杂度为O(m)。