数据结构_study(七)

最新推荐文章于 2024-08-07 22:21:20 发布

tyj98

最新推荐文章于 2024-08-07 22:21:20 发布

阅读量779

点赞数 20

分类专栏：数据结构文章标签：数据结构

本文链接：https://blog.csdn.net/tyj98/article/details/140619599

版权

数据结构专栏收录该内容

8 篇文章 0 订阅

订阅专栏

查找

查找表：同一类型的数据元素构成的集合
关键字（键值）：数据元素中某个数据项的值，用来标识数据元素
主关键字：唯一标识一个记录的关键字
次关键字：可以标识多个数据元素的关键字

查找：根据给定的某个值，在查找表中确定一个（关键字=给定值的）数据元素
查找成功，返回数据元素，查找失败返回空

静态查找表：只作查找操作的查找表，查找特定数据元素，检索特定数据元素和属性
动态查找表：查找过程中，插入不存在的元素，删除已存在的元素

查找结构：面向查找操作的数据结构，集合

顺序表查找

集合构造成线性表，对线性表查找，静态查找表

顺序查找（线性查找）：
从表中的第一个或最后一个记录开始，
逐个比较关键字和给定值；相等则查找成功，返回记录；

哨兵，避免每次比较i<=n;i++;

时间复杂度 O(n)
最好情况 O(1)、最坏情况 O(n)、平均情况 O((n+1)/2)

有序表查找

有序排序之后的线性表查找

折半查找

前提：顺序存储的线性表中的记录的关键码有序

二分（折半）查找：取中间记录作为比较对象，
相等则查找成功，
给定值小于中间记录的关键字，在左半区继续查找
给定值大于中间记录的关键字，在右半区继续查找
重复直到查找成功或查找完成

中间记录：mid=(low+high)/2

n个结点的完全二叉树深度：log₂n向下取整+1
最好情况O(1)，最差情况O(log₂n向下取整+1)
时间复杂度 O(logn)

对于频繁插入删除的数据集，维护排序会产生工作量
在这里插入图片描述

插值查找

在二叉查找基础上修改取中间元素的做法

插值计算公式：mid= low+ (high-low)* (key-a[low])/(a[high]-a[low]);

对表长较大，且关键字分布比较均匀的查找表合适

斐波那契查找

在斐波那契数组中查找

避免mid溢出数组，填充待排序数组

1、key=a[mid]，查找成功
2、key<a[mid]；k–；新范围[low,mid-1]，范围个数F[k-1]-1个
3、key>a[mid]；k=k-2；新范围[mid+1,high]，范围个数F[k-1]-1个

mid：low+F[k-1]-1

时间复杂度 O(log n)
只进行加减操作，减少消耗

在这里插入图片描述

线性索引查找

增删多的数据集

索引：把关键字和对应的记录关联的过程
一个索引由若干索引项构成
索引项包含关键字和对应的记录在存储器的位置

根据结构分为：
线性索引：索引项集合组织为线性结构，索引表
树形索引
多级索引

线性索引分为以下3种

稠密索引

稠密索引：在线性索引中，将数据集中每个记录对应一个索引项，索引项按关键码有序排列

索引有序，可以使用折半，插值，斐波那契数列查找关键字

索引项和记录个数相同，空间代价大
在这里插入图片描述

分块索引

数据集的记录分成若干块，
块内无序：每一块内的记录不要求有序
块间有序：eg：第二块所有记录的关键字均大于第一块中所有记录的关键字

分块索引表
1、最大关键码：每一块中最大关键字
2、存储块中的记录个数
3、指向块首数据元素的指针
在这里插入图片描述
分块索引查找
1、分块索引表中查找关键字所在的块
2、块首指针找块，块中顺序查找关键码

n个记录，分为m块，每块有t条，n=m*t

查找索引表平均查找长度(m+1)/2
查找块平均查找长度(t+1)/2
分块索引：(m+1)/2+(t+1)/2=(n/t+t)/2+1

倒排索引

倒排索引：属性值确定记录的位置

索引项的通用结构
1、次关键码（记录的属性）
2、记录号表：具有相同次关键字（属性）的所有记录号

生成索引表之后可以不用读取记录，节省查找时间
记录号不定长，插入删除维护困难

二叉排序树

无序数据查找效率低
有序数据插入删除效率低

动态查找：查找时插入和删除

二叉排序树（二叉查找树）：空树，或者以下性质
1、左子树<根<右子树
2、左右子树也分别为二叉排序树

中序遍历可以得到有序序列

构造二叉排序树可以提高在有序序列中插入删除的速度
查找性能取决于二叉排序树的形状，平衡时间复杂度=完全二叉树深度，不平衡时间复杂度=O(n)

链接方式存储

在这里插入图片描述

查找

比较根结点
关键字<根，查左子树
关键字>根，查右子树
相等返回

插入

查找完成，不存在关键字时插入
在这里插入图片描述

删除

删除结点，并且保持二叉排序树的特性

1、叶子结点直接删除
2、只有左子树/右子树，左子树整个移动到删除结点的位置
3、有左右子树，找到结点的直接前驱或直接后继，替换结点并删除原来的结点
在这里插入图片描述

平衡二叉AVL树

每个结点的左子树和右子树高度差最多=1的二叉排序树

平衡因子 BF：左子树深度-右子树深度
AVL树BF取值-1，0，1
最小不平衡子树：距离插入结点最近，平衡因子绝对值>1的结点为根的子树

每插入一个结点，检查平衡性
不平衡，找出最小不平衡子树，旋转
BF>1右旋，BF<-1左旋
最小不平衡子树根节点和子结点符号不同时，对子节点旋转一次之后再反向旋转

平衡二叉树查找，删除，插入时间复杂度，均为O(logn)
在这里插入图片描述

在这里插入图片描述

多路查找 B树

操作的数据集非常大，不在内存中处理，涉及到访问外部存储设备

多路查找树：一个结点的孩子树多于2个，每一个结点处可以存储多个元素
同一元素出现一次

2-3 树

每个结点都具有2个孩子（2结点）或3个孩子（3结点）的多路查找树
2结点：1个元素和（0个或2个）孩子，左子树<根<右子树
3结点：一大一小2个元素和（0个或3个）孩子。左子树<较小元素<中间元素<较大元素<右子树

特征：叶子都在同一层次

插入：一定是发生在叶子结点上
1、空树，插入2结点
2、插入结点到2结点的叶子，叶子本身只有一个元素，升级为3结点
3、插入结点到3结点的叶子，树中的两元素或插入元素，选择一个向上移动：
在这里插入图片描述

删除：
1、删除元素在3结点，直接删除
2、删除元素在2结点叶子：

待删除元素的双亲是2结点，且拥有一个3结点的右孩子
待删除元素的双亲是2结点，且拥有一个2结点的右孩子
待删除元素的双亲是3结点，拆分双亲
满二叉树，减少层数

3、删除的元素在非叶子的分支结点
在这里插入图片描述

2-3-4 树

在2-3树的基础上加上4结点
4结点：小中大3个元素和（0个或4个）孩子
左子树<最小元素<第二子树<中间元素<第三子树<最大元素<右子树
在这里插入图片描述

B树

平衡多路查找树
B树的阶：结点最大的孩子数目

2-3树是3阶B树
2-3-4树是4阶B树

一个m阶的B树，属性
1、根结点不是叶结点时，至少有2棵子树
2、所有叶子结点位于同一层
3、每一个非根的分支结点都有k-1个元素（关键字）和k个孩子（子树），
每个叶子结点n都有k-1个元素，m/2向上取整<=k<=m
4、所有分支结点包含（n,A₀,K₁,A₁,K₂,A₂,K₃,A₃…K_n,A_n）,
K_i为关键字，K_i-1<K_i，i=(1,2,3,…,n-1)
A_i指向子树根结点的指针，i=(0,2,3,…,n)
A_i-1指向的子树所有结点关键字<K_i，i=(1,2,3,…,n-1)
A_i指向的子树所有结点关键字>K_i，i=(1,2,3,…,n-1)
m/2向上取整-1<=n<=m-1

查找：指针查找结点，结点中查找关键字
插入删除和2-3，2-3-4树类似

应用：结点的元素和硬盘存储的页面大小相匹配，每次访问硬盘可以获得最大数量的数据
eg：1个结点包含1000个关键字，高度为2（3层），可以存储超10亿的关键字，只要根节点在内存，找关键字只用读取2次硬盘

缺点：遍历往返结点会在硬盘的页面之间多次访问

n个关键字的m阶B树查找最坏情况：层数最大 log_{(m/2向下取整)}((n+1)/2)+1
第一层1个
第二层最少2个结点，每个分支结点至少有(m/2向下取整)棵子树
第三层：(m/2向下取整)*2个结点
第k+1层：2 * (m/2向下取整)^k-1个结点，叶子结点
n+1>=2 * (m/2向下取整)^k-1