一、字符串
串:零个或多个字符组成的有限序列。 串长度:串中所包含的字符个数。 空串:长度为0的串,记为:" "。
非空串通常记为: S=" s1 s2 …… sn " 其中:S是串名,双引号是定界符,双引号引起来的部分是串值 ,si(1≤i≤n)是一个任意字符。
子串:串中任意个连续的字符组成的子序列。 主串:包含子串的串。 子串的位置:子串的第一个字符在主串中的序号。
串的存储结构:
(一)顺序串:用数组来存储串中的字符序列。
1.表示串的长度的三种方法:
方案1:用一个变量来表示串的实际长度。
方案2:在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。
方案3:用数组的0号单元存放串的长度,从1号单元开始存放串值。
(二)链接串:用链接存储结构来存储串
二、模式匹配:
给定主串S="s1s2…sn"和模式T="t1t2…tm", 在S中寻找T 的过程称为模式匹配。
如果匹配成功,返回T 在S中的位置,如果匹配失败,返回-1。
(假设串采用顺序存储结构,串值从0号单元开始存放。)
1.模式匹配——BF(Brute-Force)算法
基本思想: 从主串S的第0个字符开始和模式T 的第0个字符进行比较, 若相等,则继续比较两者的后续字符; 否则,从主串S的第1个字符开始和模式T 的第0个字符进行比较, 重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。
说明:模式匹配过程要进行多趟的匹配,每趟匹配要进行若干次的比较。
伪代码:
1. 在串S和串T中设比较的起始下标i和j;
2. 循环直到S或T的所有字符均比较完;
2.1 如果S[i]==T[j],继续比较S和T的下一个字符;
2.2 否则,将i和j回溯(i=i-j+1,j=0),准备下一趟比较;
3. 如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标(i-j);否则,匹配失败,返回-1;
int BF(char S[ ], char T[ ])
{
i=0; j=0;
while (i<S.Length()&&j<T.length())
{
if (S[i]==T[j]) {
i++; j++;
}
else {
i=i-j+1; j=0;
}
}
if (j>=T.length()) return (i-j);
else return -1;
}
设串S长度为n,串T长度为m,在匹配成功的情况下,考虑两种极端情况:
⑴ 最好情况:不成功的匹配都发生在串T的第一个字符。
在i-1趟不成功的匹配中共比较了i-1次, 第i趟成功的匹配共比较了m次, 所以总共比较了i-1+m次.所有匹配成功的可能情况共有n-m+1种。
(2)最坏情况:不成功的匹配都发生在串T的最后一个字符。
设匹配成功发生在si处,则在这次成功的比较过程中共进行了多少次比较?(包括之前失败的比较) 在i-1趟不成功的匹配中比较了(i-1)×m次, 第i趟成功的匹配共比较了m次, 所以总共比较了i×m次。
所有匹配成功的可能情况共有n-m+1种。
BF性能低的原因:在每趟匹配不成功时存在大量回溯,没有利用已经部分匹配的结果。
2.模式匹配——KMP(Knuth-Morris-Pratt)算法
i可以不回溯,模式向右滑动到的新比较起点k ,并且k 仅与模式串T有关!
三、多维数组
将线性表中的元素进行扩充——>多维数组。
(多维)数组——线性表中的数据元素可以是线性表,但所有元素的类型相同。
广义表——线性表中的数据元素可以是线性表,且元素的类型可以不相同。
(一)、
1.数组:数组是由一组类型相同的数据元素构成的有序集合,每个元素受n(n≥1)个线性关系的约束,并称该数组为 n 维数组。
(1)数组的特点:元素本身可以具有某种结构,属于同一数据类型; 数组是一个具有固定格式和数量的数据集合。
二维数组是数据元素为线性表的线性表
(2)数组的基本操作:
a.存取:给定一组下标,读出对应的数组元素;
b.修改:给定一组下标,存储或修改与其相对应的数组元素。
存取和修改操作本质上只对应一种操作——寻址
(3)存储方式
数组没有插入和删除操作,所以,不用预留空间,适合采用顺序存储。
数组的存储结构与寻址——二维数组:
常用的映射方法有两种:
按行优先:先行后列,先存储行号较小的元素,行号相同者先存储列号较小的元素。
按列优先:先列后行,先存储列号较小的元素,列号相同者先存储行号较小的元素。
四、矩阵的压缩存储
特殊矩阵和稀疏矩阵:
特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。 稀疏矩阵:矩阵中有很多零元素。
压缩存储的基本思想是: ⑴ 为多个值相同的元素只分配一个存储空间; ⑵ 对零元素不分配存储空间。
1.特殊矩阵的压缩存储——对称矩阵 :对称矩阵的特点:对称矩阵特点:aij=aji
2.特殊矩阵的压缩存储——三角矩阵
(1)下三角矩阵的压缩存储:
存储下三角元素、对角线上方的常数只存一个。
(2)上三角矩阵的压缩存储:
存储上三角元素、对角线下方的常数只存一个。
3.特殊矩阵的压缩存储——对角矩阵 (带状矩阵)
对角矩阵:所有非零元素都集中在以主对角线为中心的带状区域中,除了主对角线和它的上下方若干条对角线的元素外,所有其他元素都为零。
4.十字链表结点类的定义
template<class T>
class OLNode
{
public:
int row,col;
T element;
OLNode<T>* right,*down;
public:
OLNode(){right=NULL;down=NULL;};
};
五、广义表
广义表(列表): n ( 0 )个表元素组成的有限序列,记作: LS = (a0, a1, a2, …, an-1) LS是表名,ai是表元素,它可以是表 (称为子表),可以是数据元素(称为原子)。 n为表的长度。n = 0 的广义表为空表。
长度:广义表LS中的直接元素的个数; 深度:广义表LS中括号的最大嵌套层数。 表头:广义表LS非空时,称第一个元素为LS的表头; 表尾:广义表LS中除表头外其余元素组成的广义表。
广义表与线性表的区别:
线性表的成分都是结构上不可分的单元素;广义表的成分可以是单元素,也可以是有结构的表;线性表是一种特殊的广义表;广义表不一定是线性表,也不一定是线性结构。
广义表的基本运算:
(1)求表头GetHead(L):非空广义表的第一个元素,可以是一个单元素,也可以是一个子表
(2)求表尾GetTail(L):非空广义表除去表头元素以外其它元素所构成的表。表尾一定是一个表
广义表的存储结构——头尾表示法
定义结点结构:
enum Elemtag {Atom, List};
template <class T>
struct GLNode {
Elemtag tag;
union {
T data;
struct
{
GLNode *hp, *tp;
} ptr;
};
};
广义表的特点:
1)有次序性:一个直接前驱和一个直接后继
有长度:=表中元素个数
有深度:=表中括号的重数
可递归:自己可以作为自己的子表
可共享:可以为其他广义表所共享