第 4 章 字符串和多维数组
1、本章的基本内容是:
(1) 字符串。在程序设计语言中大都有串变量的概念,而且实现了基本的串操作,本章重点讨论串的存储结构及模式匹配算法。
(2) 数组。在程序设计语言中大都提供了数组作为构造数据类型,本章重点讨论数组以及特殊矩阵的存储与寻址。
2、线性表——具有相同类型的数据元素的有限序列。
(1)栈——仅在表的一端进行插入和删除操作
(2)队列——在一端进行插入操作,而另一端进行删除操作
(3)串——零个或多个字符组成的有限序列
(4)(多维)数组——线性表中的数据元素可以是线性表
4.1 字符串
一、串的逻辑结构
1、串:零个或多个字符组成的有限序列。
2、 串长度:串中所包含的字符个数。
3、 空串:长度为0的串,记为:" "。
4、非空串通常记为:
S=" s1s2 …… sn "
其中:S是串名,双引号是定界符,双引号引起来的部分是串值 ,si(1≤i≤n)是一个任意字符。
5、子串:串中任意个连续的字符组成的子序列。
6、主串:包含子串的串。
7、子串的位置:子串的第一个字符在主串中的序号。
8、串的数据对象约束为某个字符集。
9、 微机上常用的字符集是标准ASCII码,由 7 位二进制数表示一个字符,总共可以表示 128 个字符。
10、 扩展ASCII码由 8 位二进制数表示一个字符,总共可以表示 256 个字符,足够表示英语和一些特殊符号,但无法满足国际需要。
11、 Unicode由 16 位二进制数表示一个字符,总共可以表示 216个字符,能够表示世界上所有语言的所有字符,包括亚洲国家的表意字符。为了保持兼容性,Unicode字符集中的前256个字符与扩展ASCII码完全相同。
12、串的比较:通过组成串的字符之间的比较来进行的。
(1)给定两个串:X="x1x2…xn"和Y="y1y2…ym",则:
当n=m且x1=y1,…,xn=ym时,称X=Y;
(2) 当下列条件之一成立时,称X<Y:
(a) n<m且xi=yi(1≤ i≤n);
(b)存在k≤min(m,n),使得xi=yi(1≤i≤k-1)且xk<yk。
二、串的存储结构
1、串的长度的表示方法:
方案1:用一个变量来表示串的实际长度。
方案2:在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。
方案3:用数组的0号单元存放串的长度,从1号单元开始存放串值。
三、模式匹配
1、模式匹配:给定主串S="s1s2…sn"和模式T="t1t2…tm",在S中寻找T 的过程称为模式匹配。如果匹配成功,返回T 在S中的位置;如果匹配失败,返回0。
2、模式匹配问题的特点:
⑴ 算法的一次执行时间不容忽视:问题规模通常很大,常常需要在大量信息中进行匹配;
⑵ 算法改进所取得的积累效益不容忽视:模式匹配操作经常被调用,执行频率高。
3、模式匹配——BF (Back-Forward?) 算法
(1)基本思想:从主串S的第一个字符开始和模式T 的第一个字符进行比较,若相等,则继续比较两者的后续字符;否则,从主串S的第二个字符开始和模式T 的第一个字符进行比较,重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。
(2)BF算法
(A). 在串S和串T中设比较的起始下标i和j;
(B). 循环直到S或T的所有字符均比较完
2.1 如果S[i]=T[j],继续比较S和T的下一个字符;
2.2 否则,将i和j回溯,准备下一趟比较;
(C). 如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标;否则,匹配失败,返回0;
(3)BF算法
法一:
int BF(char S[ ], char T[ ])
{
i=0; j=0;
while (S[i]!='\0'&&T[j]!='\0')
{
if (S[i]==T[j]) {
i++; j++;
}
else {
i=i-j+1; j=0;
}
}
if (T[j]=='\0') return (i-j+1);
else return 0;
}
法二:
int BF(char S[ ], char T[ ])
{
i=0; j=0;start=0;
while (S[i]!='\0'&&T[j]!='\0')
{
if (S[i]==T[j]) {
i++; j++;
}
else {
start++; i=start; j=0;
}
}
if (T[j]=='\0') return start;
else return 0;
}
4、模式匹配——KMP算法(基本思想:主串不进行回溯)
(1)结论: i可以不回溯,模式向右滑动到的新比较起点k ,并且k 仅与模式串T有关!
(2)部分匹配时的两个特征:设模式滑动到第 k 个字符:
(A)则T[0]~T[k-1] = S[i-k]~S[i-1]
(B)则T[j-k]~T[j-1] = S[i-k]~S[i-1]
两式联立可得:T[0]~T[k-1] = T[j-k]~T[j-1]
(3)T[0]~T[k-1] = T[j-k]~T[j-1]说明了什么?
(A) k 与 j 具有函数关系,由当前失配位置 j ,可以计算出滑动位置 k(即比较的新起点);
(B)滑动位置k 仅与模式串T有关。
(4)KMP算法的伪代码描述
(A). 在串S和串T中分别设比较的起始下标i和j;
(B). 循环直到S或T的所有字符均比较完
2.1 如果S[i]=T[j],继续比较S和T的下一个字符;否则
2.2 将j向右滑动到next[j]位置,即j=next[j];
2.3 如果j=-1,则将i和j分别加1,准备下一趟比较;
(C).如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回0;
4.2 多维数组
一、数组的定义
数组是由一组类型相同的数据元素构成的有序集合,每个数据元素称为一个数组元素(简称为元素),每个元素受n(n≥1)个线性关系的约束,每个元素在n个线性关系中的序号i1、i2、…、in称为该元素的下标,并称该数组为n 维数组。
二、数组的特点
1、元素本身可以具有某种结构,属于同一数据类型;
2、数组是一个具有固定格式和数量的数据集合。
三、数组的基本操作
1、存取:给定一组下标,读出对应的数组元素;
2、修改:给定一组下标,存储或修改与其相对应的数组元素。
存取和修改操作本质上只对应一种操作——寻址
四、数组的存储结构与寻址——一维数组
设一维数组的下标的范围为闭区间[l,h],每个数组元素占用 c 个存储单元,则其任一元素 ai 的存储地址可由下式确定:
Loc(ai)=Loc(al)+(i-l)×c
五、数组的存储结构与寻址——二维数组
常用的映射方法有两种:
1、 按行优先:先行后列,先存储行号较小的元素,行号相同者先存储列号较小的元素。
2、 按列优先:先列后行,先存储列号较小的元素,列号相同者先存储行号较小的元素。
六、数组的存储结构与寻址——多维数组
1、n(n>2)维数组一般也采用按行优先和按列优先两种存储方法。请自行推导任一元素存储地址的计算方法。
2、Loc(aijk ) = Loc(a000) +( i×m2×m3 +j×m3 + k )×c
4.3 矩阵的压缩存储
一、特殊矩阵和稀疏矩阵
1、特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。
2、稀疏矩阵:矩阵中有很多零元素。
3、压缩存储的基本思想是:
⑴ 为多个值相同的元素只分配一个存储空间;
⑵ 对零元素不分配存储空间。
(一)特殊矩阵的压缩存储——对称矩阵
1、对称矩阵特点:aij=aji
2、如何压缩存储?
只存储下三角部分的元素。
3、对称矩阵的压缩存储
aij在一维数组中的序号=阴影部分的面积= i×(i-1)/2+ j
∵一维数组下标从0开始
∴aij在一维数组中的下标k= i×(i-1)/2+ j-1
4、对于下三角中的元素aij(i≥j),在数组SA中的下标k与i、j的关系为:k=i×(i-1)/2+j -1。
上三角中的元素aij(i<j),因为aij=aji,则访问和它对应的元素aji即可,即:k=j×(j-1)/2+i -1。
(二)特殊矩阵的压缩存储——三角矩阵
1、如何压缩存储?
只存储上三角(或下三角)部分的元素。
2、下三角矩阵的压缩存储
(1)下三角元素
(2)对角线上方的常数——只存一个
(3)矩阵中任一元素aij在数组中的下标k与i、j的对应关系:
k= i×(i-1)/2+j-1 , 当i≥j
k=n×(n+1)/2 , 当i<j
3、上三角矩阵的压缩存储
(1)上三角元素
(2)对角线上方的常数——只存一个
(3)矩阵中任一元素aij在数组中的下标k与i、j的对应关系:
k= (i-1)×(2n-i+2)/2+j-i ,当i≤j
k=n×(n+1) /2 , 当i>j
(三)特殊矩阵的压缩存储——对角矩阵
1、对角矩阵:所有非零元素都集中在以主对角线为中心的带状区域中,除了主对角线和它的上下方若干条对角线的元素外,所有其他元素都为零。
2、对角矩阵的压缩存储
元素aij在一维数组中的序号=2 + 3(i-2)+( j-i +2)=2i+ j -2
∵一维数组下标从0开始
∴元素aij在一维数组中的下标= 2i+ j -3