一、数据库管理系统的层次结构之数据存取层
数据存取介于语言处理层和数据存储层之间。它向上提供单元组接口,即导航式的一次一个元组的存取操作;向下则以系统缓冲区的存储器接口作为实现基础。接口关系如下:
数据存储层所涉及的主要数据结构为逻辑数据记录、逻辑块、逻辑存取路径。
存取层的任务主要包括:
- 提供一次一个元组的查找、插入、删除、修改的等基本操作。
- 提供元组查找所循的存取路径以及对存取路径的维护操作,如对索引记录的增删改查。若索引是采用B+树的建立、查找、插入、删除、修改等功能。
- 对记录和存取路径的封锁、解锁操作。
- 日志文件的登记和存取操作。
- 其他辅助操作(扫描、合并/排序),其操作对象有关系、有序表、索引等。
1、 数据存取层的系统结构
在实际的关系数据库管理系统中由多个功能子系统来完成数据存取层中的许多功能。数据存取层的系统结构如下:
这些子系统相互配合、紧密联系,构成了一个完整的数据存取系统。
2、数据存取层的功能子系统
- 记录存取、事务管理子系统
数据存取层不涉及存储分配、存储结构及有关参数,只在数据的逻辑结构上操作,因而可以把各种物理实现形态隐蔽起来。
记录存取子系统提供按某个属性值直接取一个元组和顺序取一个元组的存取原语。这种存取运算是按已选定的某个逻辑存取路径进行的。
事务管理子系统提供定义和控制事务的操作。数据库中事务是并发控制和恢复的单位,事务管理子系统提供的这些操作将登记进日志文件中。 - 日志登记子系统
日志等级子系统和事务管理子系统紧密配合,完成关系数据库管理系统对事务和数据库的恢复任务,它把事务的开始、回滚、提交,对元组的插入、删除、修改,以及对索引记录的插入、删除、修改等每一个操作作为一个日志记录存入日志文件中。当事务或系统软硬件发生故障时利用日志文件执行恢复。
写日志文件的有关操作:
写日志记录(WIRTELOG)
读日志记录(READLOG)
扫描日志文件(SCANLOG)
撤销尚未结束的事务(UNDO)
重做已经结束的事务(REDI)
- 控制信息管理模块
该模块利用专门的数据区(内存中)等级不同记录类型以及不同存取路径的说明信息(取自字典)和控制信息,这些信息是存取元组和管理事务的依据。该模块和事务管理、记录存取子系统一起保证事务的正常运行,提供对数据字典中说明信息的读取、增加、删除和修改操作。 - 排序/合并子系统
在语言处理层中,描述性语言表达的集合级操作被转换成一系列对数据存取层所提供的存取原语的调用。为了得到用户锁要求的有序输出,为了加速关系运算的中间步骤,常常需要对关系元组重新排序,这一工作由排序/合并子系统来完成。
排序操作的若干主要用途:
1)输出有序结果
2)数据预处理
对于并、交、差、分组聚集、连接、取消重复值、属于、不属于等关系运算,当参与运算的关系无法全部放入内存时,先对其进行排序预处理,再在有序表上执行相应操作的做法是降低处理代价的常用手段。
3)支持动态建立索引结构
B+树是数据库中常用的索引结构。B+树的叶页索引记录形式(码值,TID),其中TID为元组标识符。TID可用元组逻辑记录号、主码值或数据块加位移等来表示。索引记录在B+树的叶页上是顺序存储的,因此在初建B+树索引时首先要对(码值,TID)排序。
4)减少数据块的存取次数
通过B+树索引存取元组时,首先得到(码值,DIT)集合,然后根据TID存取相应的元组。当TID是用数据块号加位移来表示时,可首先对TID排序,使相同或临近块号的TID聚集在一起,然后按数据块号顺序存取物理数据块,避免无序状态下重复读块的情况,减少数据块的存取次数。
排序操作是数据存取子系统和存取路径维护子系统都要经常调用的操作,它对提高系统效率具有关键的作用。
- 存取路径维护子系统
对数据库执行插入、删除、修改操作的同时,要对相应的存取路径进行维护。 - 封锁子系统
封锁子系统完成并发控制功能。
1)在操作系统中也有并发控制问题,数据库与操作系统的封锁技术比较:
2)数据库管理系统中封锁子系统设计的难点不急在于技术复杂,而且其实现手段依赖于操作系统提供的环境。
二、数据库管理系统的层次结构之缓冲区管理
数据存取层的下面是数据存储层。该层主要是存储管理,包括缓冲区管理、内外存交换、外存管理等。
数据存储层向数据存取层提供的接口是由定长页面组成的系统缓冲区。
系统缓冲区的设立的原因:
- 它把数据存储层以上各系统成分和实际的外存设备隔离,外存设备的变更不会影响其他系统成分,使关系数据库管理系统具有设备独立性。
- 提供存取效率。
关系数据库管理系统利用系统缓冲区缓存数据,当数据存取层需要读取数据时,数据存储子系统首先到系统缓冲区中查找。只有当缓冲区不存在该数据时才真正从外存读入该数据所在的页面。当数据存取层写回一元组到数据库中时,存储子系统并不把它立即写回外存,仅把该元组所在的缓冲区页面作一标志,表示可以释放。只有当该用户事务结束或缓冲区已满需要调入新页时,才按一定的淘汰策略把缓冲区中已有释放标志的页面写回外存。这样可以减少内外存交换的次数,提高存取效率。
系统缓冲区可由内存或虚存组成。由于内存空间紧张,缓冲区的大小、缓冲区内存和虚存部分的比例要精心设计,针对不同应用和环境按一定的模型进行调整。既不能让缓冲区占据太大的内存空间,也不能因其空间太小而频频缺页、调页,造成“抖动”,影响效率。
数据库缓冲区及上下接口:
缓冲区由控制信息和若干定长页面组成。缓冲区管理模块向上层提供的操作是缓冲区的读(READBUF)、写(WRITEBUF)。缓冲区内部的管理操作有查找页、申请页、淘汰页。缓冲区管理调用操作系统的操作有读(READBUF)、写(WRITEBUF)。
缓冲区管理示意图:
缓冲区管理中主要算法是淘汰算法和查找算法。操作系统中的淘汰算法:FIFO(先进先出算法)、LRU等。查找算法用来确定所请求的页是否在内存,可采用顺序扫描、折半查找、hash查找算法等。