【数据结构（17）】4.3 串的类型定义、存储结构及运算

本文链接：https://blog.csdn.net/shangguanxiu/article/details/128525222

文章目录

一、串的抽象类型定义
- 1. 字符串的基本操作
二、串的存储结构
- 1. 串的顺序存储结构
- 2. 串的链式存储结构
三、串的模式匹配算法

一、串的抽象类型定义

在这里插入图片描述

1. 字符串的基本操作

基本字符串的操作函数都在字符函数、字符串函数及内存函数中，本文只做简单介绍。

二、串的存储结构

与线性表类似串也有两种基本存储结构：顺序存储与链式存储。
但考虑到存储效率和算法的方便性，串多采用顺序存储结构。

1. 串的顺序存储结构

类似于线性表的顺序存储结构，用一组地址连续的存储单元存储串值的字符序列。
按照预定义的大小，为每个定义的串变量分配一个固定长度的存储区，则可用固定长度的数组来描述。

#define MAX 255//字符串的最大长度

typedef struct
{
		char ch [MAX + 1];//存储串字符串的一维数组，还应该包含一个最后的\0
		int length;//串的当前长度

}SString;

为了便于理解，后面算法描述当中所用到的顺序存储的串都是从下标为1的数组位置开始存储的，下标为 0 的位置闲置不用。

2. 串的链式存储结构

优点：操作方便。
缺点：存储密度较低。

每个结点用来存储字符的空间需要1个字节，然而每个结点的指针域却要占4个字节，每个结点就需要占用5个字节，结点的存储密度就很低了。

为了克服这个缺点，可以将多个字符放在一个结点，
- 这样子每个结点由4个字节的空间可以拿来存储数据，另外4个字节拿来存储地址，这样每个结点的存储密度就变成了4/8 = 50%了

通常把这样的一个结点称为块；
- 通常这样一个块可以放更多的字符，比如放 50 个字符，这样存储密度就变成了 92%，但是操作起来仍然是很方便的。
通常把这种结构称为：块链结构

块链结构

//串的链式存储结构
#define CHUANSIZE 80 //块的大小可由用户定义

typedef strcut Chunk
{
	char ch[CHUANSIZE];
	struct Chunk* next;
}Chunk;

typedef struct
{
	Chunk* head;//串的头指针
	Chunk* tail;//串的尾指针
	int length;//串的当前长度
	
}LString;//字符串的块链结构

三、串的模式匹配算法

算法目的

确定主串中所含子串（模式串）第一次出现的位置（定位）。
如果主串中包含子串，则返回子串的第一个字符在主串中的位置，反之返回 0。

算法应用

搜索引擎、拼写检查、语言翻译、数据压缩。

算法种类

BF 算法（Brute-force，又称古典的、经典的、朴素的、穷举的）。
KMP 算法（特点：速度快）。

1. BF 算法

最简单直观的模式匹配算法是 BF 算法。
模式匹配算法不一定是从主串的第一个位置开始，可以指定主串中查找的起始位置 pos。
让子串在主串中的位置一位一位的往后移，然后和主串中的内容进行比较，直到在主串中找到子串的内容。

算法的思路是从 S 的每一个字符开始依次与 T 的字符进行匹配。

举个栗子

设目标串 S = “aaaaab”，模式串（子串）T = “aaab”。
S 的长度为 n（n = 6）,T的长度为 m（m = 4）。

BF算法的匹配过程如下

先从第一个字符开始比较，前面说过，为了方便，将下标为1的位置作为字符存放的第一个位置，下标 0 的位置闲置。
两个串的第一个字符都一样则 i++ 和 j++，用 S.ch[i] 和 T.ch[j] 来进行比较。

如果比较到不相等字符的位置的时候，接下来要让 i 退到第二个字符的位置，然后从主串的第二个字符的位置开始依次和子串的每个字符开始一一比较。

i 退到第二个字符的位置，再和子串一一比较

等到两个串出现不匹配的字符的时候，则让 i 退到第3个字符的位置，继续重复以上步骤。

i 开始的位置 = 结束的位置（i）- 移动的距离（j - 1）

直到任何一个串走到尽头，后面没字符可以拿来比较的时候，如果两个串都没有出现不匹配的字符的话，则说明这两个串是主串和子串的关系。

此时 i 和 j 的位置分别是7和5，此时直接用 i (7)减掉匹配的串的长度 aaab（4），就可以得出子串在主串中的位置3了。

算法步骤

Indes(S,T,pos)

将主串的第 pos 个字符和模式串的第一个字符进行比较。
若相等，继续逐个比较后续字符。
若不等，则从主串的下一个字符起，重新与模式串的第一个字符进行比较。
- 直到主串的一个连续子串字符序列与模式串相等。返回值为 S 中与 T 匹配的子序列的第一个字符的序号，即匹配成功。
- 反之匹配失败，返回值为 0 。

算法描述

//返回模式T在主串S中第pos个字符开始第一次出现的位置，若不存在则返回0。
//其中T非空，1 <= pos <= S.length
int Index_BF(SString S,SString T,iny pos)
{
		i = pos;j = 1;//初始化
		
		//两个串均未达到串尾
		while(i <= S.length && j <= T.length)
		{
				//主子串对应位置字符如果相等则比较后续字符
				if(S.ch[i] == T.ch[j])
				{
						i++;
						j++;
				}
				else//主串、子串指针回溯重新开始下一次匹配
				{		
						i = i -j + 2;
						j = 1;
				}
		}
		if(j > T.length)//匹配成功
		{
				return i - T.length;
		}
		else//匹配失败
		{ 
				return 0;
		}
}