文章目录
声明:
本博客是本人在学习《大话数据结构》后整理的笔记,旨在方便复习和回顾,并非用作商业用途。
本博客已标明出处,如有侵权请告知,马上删除。
5.1 开场白
略
5.2 串的定义
串(String)是由零个或多个字符组成的有限序列,又名叫字符串。
一般记为 s=“a1a2…an”(n>0),其中,s 是串的名称,用双引号括起来的字符序列是串的值,注意引号不属于串的内容。ai(1<=i<=n) 可以是字母、数字或其他字符,i 就是该字符在串中的位置。串中的字符数目 n 称为串的长度,定义中谈到"有限"是指长度 n 是一个有限的数值。零个字符的串称为空串(null string),它的长度为零,可以直接用两双引号 “” 表示,也可以用希腊字母"ø"来表示。所谓的序列,说明串的相邻字符之间具有前驱和后继的关系。
还有一些概念需要解释:
- 空格串,是只包含空格的串。注意它与空串的区别,空格串是有内容有长度的,而且可以不止一个空格。
- 子串与主串,串中任意个数的连续字符组成的子序列称为该串的子串,相应地,包含子串的串称为主串。
- 子串在主串中的位置就是子串的第一个字符在主串中的序号。
5.3 串的比较
两个数字,很容易比较大小。2 比 1 大,这完全正确,可是两个字符串如何比较?比如 “silly”、“stupid” 这样的同样表达"愚蠢的"的单词字符串,它们在计算机中的大小其实取决于它们挨个字母的前后顺序。它们的第一个字母都是 “s”,我们认为不存在大小差异,而第二个字母,由于 “i” 字母比 “t” 字母要靠前,所以 “i”<“t”,于是我们说 “silly”<“stupid”。
事实上,串的比较是通过组成串的字符之间的编码来进行的,而字符的编码指的是字符在对应字符集中的序号。
计算机中的常用字符是使用标准的 ASCII 编码,更准确一点,ASCII 码由 8 位二进制数表示一个字符,总共可以表示256个字符,这已经足够满足以英语为主的语言和特殊符号进行输入、存储、输出等操作的字符需要了。可是,单我们国家就有除汉族外的满、回、藏、蒙古、维吾尔等多个少数民族文字,换作全世界估计要有成百上千种语言与文字,显然这 256 个字符是不够的,因此后来就有了 Unicode 编码,比较常用的是由 16 位的二进制数表示一个字符 ,这样总共就可以表示 2^16 个字符,约是 65 万多个字符,足够表示世界上所有语言的所有字符了。当然,为了和 ASCII 码兼容,Unicode 的前 256 个字符与 ASCIl 码完全相同。
所以如果我们要在 C 语言中比较两个串是否相等,必须是它们串的长度以及它们各个对应位置的字符都相等时,才算是相等。即给定两个串:s=“a1a2…an”,t=“b1b2…bm”,当且仅当 n=m,且 a1=b1,a2=b2,…,an=bm时,我们认为 s=t。
那么对于两个串不相等时,如何判定它们的大小呢。我们这样定义:
-
n<m,且 ai=bi(i=1,2,…,n)。
例如:当 s=“hap”,t=“happy”,就有 s<t。因为 t 比 s 多出了两个字母。
-
存在某个 k<=min(m,n),使得 ai=bi(i=1,2,…,k-1),ak<bk。
例如:当 s=“happen”,t=“happy”,因为两串的前 4 个字母均相同,而两串第 5 个字母(k值),字母 e 的 ASCII 码是 101,而字母 y 的 ASCII 码是 121,显然 e<y,所以 s<t。
5.4 串的抽象数据结构
串的逻辑结构和线性表很相似,不同之处在于串针对的是字符集,也就是串中的元素都是字符。
因此,对于串的基本操作与线性表是有很大差别的。线性表更关注的是单个元素的操作,比如查找一个元素,插入或删除一个元素,但串中更多的是查找子串位置、得到指定位置子串、替换子串等操作。
ADT 串(string)
Data
串中元素仅由一个字符组成,相邻元素具有前驱和后继关系。
Opration
StrAssign(T, *chars):生成一个其值等于字符串常量chars的串T。
StrCopy(T, S):串S存在,由串S复制得串T。
ClearString(S):若串S存在,将串清空。
StringEmpty(S):若串S为空,返回true,否则返回false。
StrLength(S):返回串的元素个数,即串的长度。
StrCompare(S, T):若S > T,返回值 > 0,若S = T,返回0,若S < T,返回值 < 0。
Concat(T, S1, S2):用T返回由S1和S2联接而成的新串。
SubString(Sub, S, pos, len):串S存在,1≤pos≤StrLength(S),
且0≤len≤StrLength(S) - pos + 1,
用Sub返回串S的第pos个字符,用Sub返回串S的第pos个字符起长度为len的字串。
Index(S, T, pos):串S和T存在,T是非空串,1≤pos≤StrLength(S)。
若主串S中存在和串T相同的子串,则返回它在主串S中第pos个字符之后第一个出现的位置,则返回0。
Replace(S, T, V):串S、T和V存在,T是非空串。用V替换主串S中出现的所有与T相等的不重叠的子串。
StrInsert(S, pos, T):串S和T存在,1≤pos≤StrLength(S) + 1。在串S的第pos个字符之前插入串T。
StrDelete(S, pos, len):串S存在,1≤pos≤StrLength(S) - len + 1。
从串S中删除第pos个字符起长度为len的子串。
endADT
我们来看一个操作 Index 的实现算法。
/*
* T为非空串。若主串S中第pos个字符串之后存在与T相等的子串,
* 则返回第一个这样的子串在S中的位置,否则返回0
*/
int Index(string S, string T, int pos)
{
int n, m, i;
string sub;
if (pos > 0)
{
n = StrLength(S); //得到主串S的长度
m = StrLenhth(T); //得到子串T的长度
i = pos;
while (i <= n - m + 1)
{
SubString(sub, S, i, m); //取主串第i个位置,长度与T相等子串给sub
if (StrCompare(sub, T) != 0) //如果两串不相等
{
++i;
}
else //如果两串相等
{
return i; //返回i值
}
}
}
return 0; //若无子串与T相等,返回0
}
5.5 串的存储结构
5.5.1 串的顺序存储结构
串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区。一般是用定长数组来定义。
既然是定长数组,就存在一个预定义的最大串长度,一般可以将实际的串长度值保存在数组的 0 下标位置,有的书中也会定义存储在数组的最后一个下标位置。
刚才讲的串的顺序存储方式其实是有问题的,因为字符串的操作,比如两串的连接 Concat、新串的插入 StrInsert,以及字符串的替换 Replace。都有可能使得串序列的长度超过了数组的长度 MaxSize。
于是对于串的顺序存储&