数据库系统第八周小结

文章详细介绍了数据库中的索引类型,包括排序和散列索引,以及主索引和辅助索引的区别。此外,还讨论了不同索引结构如B树和散列,并解析了数据库查询算法的实现,特别是连接操作的不同策略,如一趟扫描算法。
摘要由CSDN通过智能技术生成

数据库系统

2023-4-10~2023-4-16

第八周小结

第十五讲–数据库索引

1.索引,一种辅助存储结构,由一系列存储在磁盘上的索引项组成,每一索引项由索引字段(表中的若干列串接而成)、行指针(指向表中包含索引字段值的记录在磁盘上的存储位置)组成;
存储索引项的文件为索引文件,存储表为主文件;
索引文件存在与否不改变存储表的物理存储结构,但是可以明显提高存储表的访问速度;
2.索引文件组织方式
排序索引文件,按索引字段值的某一种顺序组织存储;
散列索引文件,依据索引字段值使用散列函数分配散列桶的方式存储;
3.索引文件比主文件小很多,可全部装载进内存;更新操作必须同步更新索引文件和主文件;
4.索引应用的评价
访问时间、插入时间、删除时间、空间负载、支持存取的有效性(如支持的属性的限定值、限定范围的值)
5.区分
码/主码,又称表键,具有唯一性、最小性;
排序码,对主文件进行排序存储的那些属性或属性组;
索引码,即索引字段,未必有唯一性;
搜索码,在主文件中查找记录的属性或属性集;
6.索引的创建和删除
在这里插入图片描述
7.稠密索引和稀疏索引
稠密索引,主文件中每一条记录都有一个索引项与之对应;
候选键属性的稠密索引–先查索引,再读主文件;
在这里插入图片描述

非候选键属性的稠密索引(索引字段值不重复):
在这里插入图片描述

非候选键属性的稠密索引(索引字段值重复):
在这里插入图片描述

非候选键属性的稠密索引(引入桶):
在这里插入图片描述

稀疏索引,主文件的部分记录,有索引项与之对应;
定位索引字段值为k的记录,先找到相邻的小于k的最大索引字段值的索引项,从该索引项对应记录开始顺序检索;
要求–主文件必须按照索引字段属性排序存储;
占用空间少、维护任务轻,但速度慢;
在这里插入图片描述

8.主索引(一种稀疏索引)
通常对每一存储块有一个索引项,索引项的总数与存储表占的存储块数目相同;存储表的每一存储块的第一条记录成为锚记录;
主索引的索引字段值为块锚的索引字段值,指针指向所在的存储块;
主索引是按索引字段值进行排序的有序文件;
在这里插入图片描述

9.辅助索引(一种稠密索引)
定义在主文件的任一或多个非排序字段上的辅助存储结构;
对某一非排序字段上的没一个不同值有一个索引项,指向记录的块/记录本身(每个记录都要有一个索引项对应,引入桶);
在这里插入图片描述

10.主索引与辅助索引对比
一个主文件仅有一个主索引,但辅助索引不唯一;
主索引常建立在主码/排序码上,但辅助索引可以建立在其他属性上;
利用主索引重新组织文件数据,但是辅助索引不能改变主文件数据;
主索引为稀疏索引,辅助索引为稠密索引;
11.聚簇索引与非聚簇索引
聚簇索引,索引中邻近的记录在主文件中是邻近存储的;
非聚簇索引,索引中邻近记录在主文件中不一定是邻近存储的;
若主文件中某一排序字段不是主码,则该字段上每条记录取值不唯一,此时该字段为聚簇字段(聚簇索引常定义在聚簇字段上);
一个主文件只有一个聚簇索引文件,但可以有多个非聚簇索引文件;
主索引常是聚簇索引,辅助索引常是非聚簇索引;
主索引/聚簇索引可以决定记录存储的位置,费聚簇索引只能用于查询;
在这里插入图片描述

12.倒排索引
在这里插入图片描述

13.其他结构的索引
多级索引–索引项较多时,对索引建立索引;(常见的有B树、B+树索引);
多属性索引–索引字段由表的多个属性值组合在一起的索引;
散列索引–使用散列技术组织的索引;
网格索引–使用多索引字段进行交叉联合定位与检查;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
14.B+树索引(维护B+树不在这里)

有n-1个索引项(<索引字段值Ki,指针Pi>)和一个指针Pn;
索引字段值在[Ki-1,Ki)的由Pi指向,在[Ki,Ki+1)的由Pi+1指向;
存储块=4096B,整数型索引字段值为4B,指针为8B,n满足4(n-1)+8n≤4096
即n最大为341;
非叶结点指向索引块,叶结点指向主文件的数据块/记录,其中叶结点的最后一个指针始终指向下一个数据块;

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

建立不同的索引:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
15.B树(平衡–层数相同)
索引字段值近出现一次(可以出现在非叶结点);
指向主文件的指针可以出现在非叶结点;
所有结点才能覆盖所有键值的索引;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
16.散列
在这里插入图片描述

内存数据可采用散列确定存储页,主文件可采用散列确定存储块,索引可以用散列确定索引项的存储块;
一个桶可以是一个存储块,可以是若干个连续的存储块;
在这里插入图片描述

17.静态散列索引与动态散列索引
静态散列索引,桶的数目M不变(M过大则浪费,M过小则更多溢出桶);
动态散列索引,h(k)与桶的数目M相关;如可扩展散列索引、线性散列索引;
18.可扩展散列索引(保留题目)
直接上示例:
在这里插入图片描述
在这里插入图片描述
19.线性散列索引
与可扩展散列索引不同,线性散列索引是从右至左开始取。
i为取的位数,n为桶个数,r为存储记录数,要求r/n≤1.7,否则要分裂;
线性散列索引允许有溢出桶;
假设桶为,则该桶是由桶分裂而来的;
在这里插入图片描述
在这里插入图片描述

第十六讲–数据库查询算法实现(一趟扫描算法)

1.数据库的三大类操作
一次单一元组的一元操作,如选择selection、投影projection,可以使用迭代器算法;
整个关系的一元操作,如δ去重distinct、γ分组group by、τ排序sorting;
整个关系的二元操作,如集合上的操作(∩、∪、-)、包上的操作(∩、∪、-)、积product、连接join;
2.连接操作的逻辑实现–未考虑物理因素
TR为关系R的元组数目;
For i=1 to TR
Read i-th record of R;
For j=1 to TS
Read j-th record of S;
If R.A θ S.B
Then {串接i-th record of R和j-th record of S;存入结果关系}
Next j
Next i
3.关系是存储在磁盘上的,磁盘操作以块为单位,先载入内存,再元组处理;
B RxS = TRTS(IR+IS)/b;其中IR表示关系R的每个元组的字节数,b为每个磁盘块字节数,BR表示关系R的磁盘块数目;
4.连接操作基本实现P1–IO次数估计为BR+BRBS(忽略保存的IO次数);仅需要三个内存页即可;
For i = 1 to BR
Read i-th block of R;
For j = 1 to BS
Read j-th block of S;
For p = 1 to b/IR
Read p-th record of R;
For q = 1 to b/IS
Read q-th record of S;
If R.A θ S.B
Then{串接p-th record of R和q-th record of S;存入结果关系;}
Next q
Next p
Next j
Next i
5.连接操作全主存实现算法P2–IO次数估计为BR+BS(忽略保存的IO次数);假定M≥BR+BS(M是主存缓冲区的页数,每页容量为一个磁盘块容量)(一次能装入两个关系);
For i = 1 to BR
Read i-th block of R;
Next i
For j = 1 to BS
Read j-th block of S;
Next j
For p = 1 to TR
Read p-th record of R;
For q = 1 to TS
Read q-th record of S;
If R.A θ S.B
Then{串接p-th record of R和q-th record of S;存入结果关系;}
Next q
Next p
6.连接操作半主存实现算法P3–IO次数估计为BR+BS(忽略保存关系的次数);假设BS≥BR,BR<M(有一个关系可能装不进去);
For i = 1 to BR
Read i-th block of R;
Next i
For j = 1 to BS
Read j-th block of S;
For p = 1 to TR
Read p-th record of R;
For q = 1 to TS
Read q-th record of S;
If R.A θ S.B
Then{串接p-th record of R和q-th record of S;存入结果关系;}
Next q
Next p
Next j
7.连接操作的大关系实现算法P4–IO次数估计为BR
BS/(M-2)+BS(忽略保存关系的次数);假设BS≥M,BR≥M;
把关系S分为BS/(M-2)个子集合,每个子集合有M-2个块。M-2块读入S,1块读入R,一块用作输出;
For i = 1 to BS/(M-2) //一次读入M-2个块,先处理M-2个块的所有R关系
Read i-th subset of S into MS;
For j = 1 to BR
Read j-th block of R into MR;
For p = 1 to (M-2)b/IS //每次操作一个元组
Read p-th record of S;
For q = 1 to b/IR
Read q-th record of R;
If R.A θ S.B
Then{串接p-th record of R和q-th record of S;存入结果关系;}
Next q
Next p
Next j
Next i
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
8.迭代器算法
抽象类iterator,不同的操作构造自己的open函数、getnext函数、close函数;
Class iterator{ void open();tuple getnext();void close();iterator &inputs[];}
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
9.关系/表数据的读取–完整地读取一个关系
聚簇关系–一个块中仅是一个关系的元组:
TableScan(R),未排序–BR
SortTableScan(R),排序–3BR
IndexScan(R),未排序–BR
SortIndexScan(R),排序–BR或3
BR
非聚簇关系–一个块中不只是一个关系的元组:
扫描结果为排序–TR
扫描结果排序–TR+2*BR
10.去重复&(R)
内存中保存已处理过的元组,用于判断是否重复;
建立不同的内存数据结构,处理保存的数据;
算法复杂性BR;
应用条件B(&®)≤M;
在这里插入图片描述
11.分组聚集γ(R)
内存中保存所有的分组,保存每个分组上的聚集信息;
建立不同的内存数据结构,保存处理过的数据;
算法复杂性BR;
应用条件,所有分组数量能在内存中完整保存;
在这里插入图片描述
在这里插入图片描述
12.整个关系上的二元操作实现
集合、包上的∩、∪、-;
集合操作要去重;
包操作要计数(每一个元组出现的次数);
算法复杂性BR+BS;
应用条件,min(B®,B(S))≤M;
在这里插入图片描述

13.基于索引的选择算法
在这里插入图片描述
在这里插入图片描述

14.Zig-Zag连接算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深海质粒ABCC9

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值