数据库系统笔记indexing and hashing

最新推荐文章于 2021-12-28 20:05:32 发布

原切

最新推荐文章于 2021-12-28 20:05:32 发布

阅读量505

点赞数 1

分类专栏：数据库

本文链接：https://blog.csdn.net/qq_45601357/article/details/118269222

版权

数据库专栏收录该内容

2 篇文章 2 订阅

订阅专栏

前言

本章对应数据库系统lecture8 indexing and hashing课件的部分内容,主要学习index和hashing。

一、Indexing

许多查询只涉及数据集合中少量记录，如果为了查找一个集合中的个别记录，而遍历所有的记录，代价会很大。

1.index的基本概念

需要掌握的概念：
	Search key：一个关系中一个或多个属性，常用于查找文件中的数据记录。
	Index文件：一个特殊的文件，由一些记录构成，称作索引项（index entries），两个部分：search key和pointer，pointer指向数据文件中search key对应的数据记录。

2.index种类

Index的种类：

（1）顺序索引：基于记录中某个属性值的顺序建立的索引，比如成绩顺序

（2）hash索引：根据记录的查找键的值，使用一个函数计算得到的函数值作为磁盘块的地址，对记录进行存储和访问，通常用桶作为基本的存储单位，一个桶可以存放多个记录

评估索引的指标：
	访问时间：查询时找到数据项或数据项集合的时间
	修改时间：在数据文件中增加或删除数据的时间，以及更新索引（插入索引项和删除索引项）的时间
	空间开销：索引文件占用的存储空间。

2.1 Ordered Indices 顺序索引

顺序索引：索引项根据search key排好序，索引文件中的索引记录都是按照search key排好序的 —— 按search-key有序。

主要掌握两个概念：primary index主索引（clustering index聚集索引）和secondary index辅助索引（non-clustering index非聚集索引）。

对于数据文件，可以按照某个属性的值排好序存放在文件中。

主索引指的是索引项中的search key是数据文件中排序的属性，而且顺序与数据文件一致。

辅助索引指的是数据文件中的记录顺序与索引文件中索引项的顺序不一致。

2.1.1 主索引

2.1.1.1 稠密索引

索引文件中search key所有取值都出现在索引文件中。

比如工号作为search key的话，数据记录中工号的所有取值都在索引项中出现。
在这里插入图片描述

2.1.1.2 稀疏索引

索引项中只包含search key的部分取值。

如图中的例子，searchkey是ID，但索引项中仅仅存储了个别的ID值。

在这里插入图片描述

2.1.1.3 稠密索引和稀疏索引的比较

稀疏索引的空间开销比稠密索引小，定位数据比稠密索引慢。

将两种索引结合起来形成多级索引。首先为顺序文件的每一块建立一个索引记录，得到一个以块为基本单位的稠密索引，然后再在稠密索引的基础上建立一个稀疏索引。（稠密索引+稀疏索引）

查找时，首先在稀疏索引中确定记录在哪一块，最后在数据文件的块中顺序查找，找到所在的记录。（二级索引）在此基础上可以延伸出多级索引（multilevel index）
在这里插入图片描述

2.1.2 辅助索引

一个关系表可以有多个索引，但数据文件只有一个顺序。

辅助索引和主索引的目的一样，但是索引文件中search key的顺序与数据文件的顺序不一样。

下图示意了数据文件中记录的顺序是按照name排序，但是索引文件searchkey的顺序是年龄，其中的框可以想象成数据块。

在这里插入图片描述

3.Index文件结构——B+树索引文件

3.1 产生背景

索引顺序文件（index-sequential file—在search key上有主索引的文件，数据文件按照search key的值排好序）的缺陷是，随着文件的增大，溢出块不断产生，为了保持顺序，文件需要阶段性地重组，导致索引查找性能和数据顺序扫描的性能都会下降。

B+树是一种最广泛使用的索引文件结构之一，采用平衡树结构，是在数据插入和删除的情况下仍能保持执行效率的结构，只需很小的、局部的变化自动重组文件。

B+树的缺点：会有插入数据和删除数据的额外开销，增加空间开销。

3.2 B+ Tree

B+树采用平衡树的结构，从树根到树叶的每一条路径长度相等。

给定n，树中非根、非叶子节点有 $\lceil n/2 \rceil$ ~ $n$ 个孩子；叶子节点有 $\lceil (n-1)/2 \rceil$ ~ $(n - 1)$ 个值。

特殊情况下：如果根不是叶子，其有至少2个孩子；如果根是叶子（这棵树只有一个节点），那么这个根节点存储0~(n-1)个值。

在这里插入图片描述
从图中更可以看到，这棵树的n=4，按照B+树的结构定义，根节点最多有4个孩子，最少有 $\lceil 4/2 \rceil$ =2个孩子。非叶子节点最多有4个孩子，最少有 $\lceil 4/2 \rceil$ =2个孩子。叶子节点最多有4-1=3个值，最少有 $\lceil （4-1）/2 \rceil$ =2个值。

图中的数据记录存储在磁盘空间的数据块中，按照ID排序。

在这里插入图片描述

B+树用于索引文件结构实际是一种多级索引，但是不同于多级索引顺序文件（每个数据块中的数据记录按照某个属性值排好序）。典型的B+树节点的数据结构如图示意：包含n-1个search key : $K_1$ ~ $K_{n–1}$ 以及n个指针 $P_1$ ~ $P_n$ 。对于指针 $P_i$ ，如果是非叶子节点的指针，指向孩子节点；如果是叶子节点，指向具体的记录或记录桶。

$P_i$ 指向具有 search-key值Ki的文件记录，若search-key是数据文件的primary key，则指向具有search-key的数据文件的记录（唯一性）；若search-key不是数据文件的主键，且search-key值的顺序也不是数据文件的顺序（数据文件按照另外的属性值排序），则指向一个桶，桶中的记录具有search-key的值。

如果 $L_i$ 和 $L_j$ 是叶子节点而且i < j, 那么 $L_i$ 的search-key值小于等于 $L_j$ 的search-key值。

叶子节点的指针 $P_n$ 有特殊作用，每个叶子节点的 $P_n$ 指针指向下一个叶子节点，将所有的叶子节点按照search-key值的顺序链起来，提高对文件的顺序处理效率。

B+树非叶子结点（也称内部结点）形成叶子结点上的多级稀疏索引，非叶子结点的结构有叶子结点的结构一样，但是非叶子的指针都是指向树中结点的指针，有以下特征（定义）:

$P_1$ 指向的子树的所有search-keys值小于 $K_1$
$P_n$ 指向的子树的所有search-keys值大于等于 $K_{n–1}$
$P_i$ 指向的子树的所有search-keys值大于等于 $K_{i–1}$ 且小于 $K_i$

扇出（fan-out）：结点的指针数

在这里插入图片描述
如上图所示，search-key是name。可以看到根节点有3个孩子（3~6个），这棵树只有两层，叶子节点存储了search-key的值。

3.2.1 B+ tree的查找操作

寻找所有search key值等于k的记录:

1.首先在根结点中找>k的最小查找键值。
2.如果存在这样的值，设为 $K_i$ 然后沿着 $K_i$ 左边的指针 $P_i$ 到达第二层的结点。
3.如果不存在这样的结点（k ≥ $K_{n–1}$ ），沿着指针 $P_n$ 到达第二层的结点。重复1，2，3步骤。
4.直到叶子结点，找到一个指针直接指向数据文件的记录，或指向一个桶。

需要注意的是，如果文件中一共有k个search key的值，那么构造出来的B+tree的高度不会超过 $log_x$ $k$ (x= $\lceil n/2 \rceil$ )。

也就是说，查询的效率也很高，可以访问很少的数据块找到想要的数据。

3.2.2 B+ tree的查询次数和存储块之间的关系

如果search-key的值有K个，给定n，基于B+树查询时，查询次数与存储块之间的关系则为：

假设一个块的大小为4KB，search-key的长度为12个字节，指针占8个字节，则每个块可以存储200个search-key和pointer，那么n=200；如果search-key的长度为32个字节，指针仍为8字节，则每块大约可存储100search-key和pointer，那么n = 100。

当n确定了，search-key的值的个数k也确定了，那么一次查询需要读索引块的数目也确定了。如果B+Tree索引的的根结点常驻内存（pinned），那么查找时只需读 $\lceil$ log_x $($ K $)\rceil$ -1个索引块，其中x= $\lceil n/2 \rceil$ 。

3.2.3 B+ tree的插入操作

插入操作的算法实现逻辑。

查找search-key的值在叶子结点上出现的位置（调用B+树查询算法）
如果search-key的值出现在叶子结点上（不需要重复），则
a）将数据记录加到入到数据文件中；
b）如果有必要，增加一个指向存储桶的指针（search-key不是key属性）
如果search-key的值未出现在叶子结点中，则
a）将数据记录加到入到数据文件中（如果有必要的话增加一个桶-溢出块）
b）(修改B+树）如果叶子结点有空间，插入(key-value, pointer) 对到相应的位置（保持节点的结构）
c）否则，分裂这个包含了新(key-value, pointer)对的节点（实现时，申请一个临时空间N‘存储原来结点N的那些(key-value, pointer)以及新插入的新(key-value, pointer)，排好序，使之符合B+树结点的定义。然后再将这个临时N’进行分裂）
更新父结点，在父结点插入新结点中最小Search-key的值，同样按照顺序插入到父结点中。
如果父结点因为插入了新的value导致结点分裂（不满足B+树的定义），则继续递归分裂父结点，直到结点不再进行分裂。有可能树长高了一层。

已知当前B+树的结构如图示意，N=3。新的记录的search-key属性值为Clearview。

首先定位：通过调用B+树查询算法可以知道，这个新search-key值（Clearview）应该排在树上最左边的叶子结点Brighton之后。可以看到，最左边的结点已经有两个search-key值，N=3，所以这个结点是满的。没有空间给Clearview。

这时需要进行节点的分裂操作。过程是这样的：原来的结点设为N，申请临时存储空间为N’，存储三个(searchKey-value, pointer）对，包括(clearview,pointer),且按照searchKey的值排好序。然后分裂这个N’，分裂时将N’中前 $\lceil n/2 \rceil$ 个值放入原来的N结点，剩下的值放到新生成的结点中。

图示可以看到，新结点中存放的是Downtown这个值。

针对非叶子节点的分裂步骤如下：
前面介绍了叶子节点的分裂，非叶子结点满了也要分裂，分裂算法如讲义所示。

申请临时存储M，大小为n+1个pointer和n个search-key，并将结点N（插入新结点导致分裂的结点）的所有信息copy到M中
将孩子结点传递上来的（k,p）(新叶子结点的最小的key）按Key的顺序插入到M中
将M中 $P 1$ , $K 1$ , …, $K _{⌈n/2⌉-1}$ , $P_{⌈n/2⌉}$ 从M中拷贝回结点N，剩下的 $P _{⌈n/2⌉+1}$ , $K _{⌈n/2⌉+1}$ ,…, $K_n$ , $P_{n+1}$ 拷贝到新生成的结点中
（同样，新结点不能是个孤儿，得有父母），将( $K_{⌈n/2⌉}$ ,N’) 插入到父亲结点中。
如果父亲结点满了，继续分解父结点（递归执行）