openGauss数据库源码解析系列文章——存储引擎源码解析(一)_opengauss存储引擎源码分析(1)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

| 页面模块 | page子目录 | 主要包含:各种行存储格式中,页面格式、页面校验、页面加密和页面压缩 |
| 备机页面修复模块 | remote子目录 | 主要包含:从备机获取完整页面或压缩单元,用于修复主机损坏的页面或压缩单元 |
| 主备日志复制模块 | replication子目录 | 主要包含:主备日志发送和接收线程的实现;流式日志同步功能的实现;Quorum复制协议的实现,逻辑日志的实现以及主备重建;主备心跳检测功能的实现 |
| 存储介质管理模块 | smgr子目录 | 主要包含:存储介质管理层的实现;磁盘文件系统(当前默认的存储介质)的基本功能接口实现 |

除了以上的这些模块之外,storage目录下剩余的子目录分别属于:外表批量导入模块(bulkload子目录)、外表服务器连接模块(dfs子目录)、进程间通信模块(ipc子目录)、大对象模块(large\_object子目录)、锁管理模块(lmgr子目录)。
openGauss存储引擎相关的后台线程实现代码包含在“src/gausskernel/process/postmaster”目录下,简要介绍如表4-3。在后序介绍具体相关模块消息序列时会详细介绍这些线程的工作原理和执行流程。

表4-3 存储引擎后台线程

线程名文件名说明
ADIO线程aiocompleter.cpp该线程主要负责异步-同步读写操作(ADIO,asynchronous-direct input-ouput)的后台预取和回写
autovacuum线程autovacuum.cpp该线程主要负责磁盘引擎的后台空闲空间回收
bgwriter线程bgwriter.cpp该线程主要负责行存储表的后台脏页写入磁盘(当内存数据页跟磁盘数据页内容不一致的时候,称这个内存页为“脏页”。内存数据写入到磁盘后,内存和磁盘上的数据页的内容就一致了,称为“干净页”)
cbmwriter线程cbmwriter.cpp该线程主要负责增量页面修改信息的后台异步提取和CBM(changed block map,修改页面位图)日志的记录
checkpointer线程checkpointer.cpp该线程主要负责在后台定期推进数据库的故障恢复点
lwlockmonitor线程lwlockmonitor.cpp该线程主要负责业务线程轻量级锁的死锁检测
pagewriter线程pagewriter.cpp该线程主要负责行存储共享缓冲区的脏页写入磁盘
pgarch线程pgarch.cpp该线程主要负责在后台定期执行日志归档命令
remoteservice线程remoteservice.cpp该线程主要负责接收主机页面修复RPC(remote procedure call,远程函数调用)请求
startup线程startup.cpp该线程为数据库故障恢复和回放日志的主线程
walwriter线程walwriter.cpp该线程主要负责在后台异步写入磁盘日志

4.2 磁盘引擎

磁盘引擎是数据库系统中最常用的存储引擎,openGauss提供不同存储格式的磁盘引擎来支持大容量(数据量大于内存空间)场景下的OLTP、OLAP和HTAP(hybrid transactions and analytics processing,混合交易和分析处理)业务。本节主要介绍openGauss数据库内核中磁盘引擎的实现方式。

4.2.1 磁盘引擎整体框架及代码概览

磁盘引擎的整体框架如图4-1中所示。根据与上层SQL引擎之间交互的数据结构类型,可以分为行存储格式和列存储格式。这两种数据格式共用相同的事务并发控制、日志系统、持久化和故障恢复、主备系统。
在此基础之上,行存储格式内部设计为可以支持多种不同子格式的可扩展架构。不同行存储子格式之间共用相同的行存储统一访存接口(table access method)、共享缓冲区、索引机制等。当前仅支持追加写优化的astore子格式,后续计划支持写优化的ustore子格式以及面向其他场景优化的其他子格式。另一方面,在openGauss行存储格式中,对同一行数据的写-写查询冲突通过两阶段锁协议来实现并发控制(参见第5章中关于行级锁的介绍),对同一行数据的读-写查询冲突通过行级多版本技术来实现互不阻塞的、高效的并发控制。对于不同的行存储子格式,可能采用不同的行级多版本实现方式,从而也会引入不同的、清理历史版本的空闲空间管理和回收机制。
磁盘引擎的主要功能模块和代码分布如表4-4所示。

表4-4 磁盘引擎功能模块

功能模块名说明
行存储统一访存管理向上对接SQL引擎,提供对行存储表各类访存操作的抽象接口,包括:行级查询、插入、删除、修改等操作接口;向下根据行存储表实际的行存储子格式,调用与子格式对应的具体访存操作实现 代码主要在“src/gausskernel/storage/access/table”目录下
astore访存管理提供astore行存储格式表的具体访存操作实现,包括:对astore堆表的行级查询、插入、删除、修改等操作接口;astore堆表行级多版本机制和元组可见性判断;根据astore堆表页间、页内结构,以及astore堆表元组结构,完成对astore堆表文件的遍历和增删改查操作 代码主要在“src/gausskernel/storage/access/heap”目录(单表文件管理)和“src/gausskernel/storage/access/hbstore”目录(段页式文件管理)下
astore堆表/索引表页面结构包括astore堆表/索引表元组在页面内的具体组织形式,在页面内插入元组操作、页面整理操作、页面初始化、页面加解密、页面CRC(cyclic redundancy check,循环冗余码校验)校验操作等 代码主要在“src/gausskernel/storage/access/redo/bufpage.cpp”文件、“redo_bufpage.cpp”文件和对应头文件中
astore堆表元组结构包括astore堆表元组的结构、填充、解构、修改、字段查询、变形、压缩、解压等操作 代码主要在“src/gausskernel/storage/access/common/heaptuple.cpp”文件和对应头文件中
行存储索引访存管理向上对接SQL引擎,提供对索引表的行级查询、插入、删除等操作接口;向下根据索引表页间、页内结构,以及索引表元组结构,完成对指定索引键的查找和增删操作 索引访存层抽象框架代码在“src/gausskernel/storage/access/index”目录下,每种索引结构具体对应的实现代码在同级的gin目录、gist目录、hash目录、nbtree目录、spgist目录
行存储索引表元组结构包括行存储索引表元组的结构、填充、解构、拷贝等操作 代码主要在“src/gausskernel/storage/access/common/indextuple.cpp”文件和对应头文件中
行存储共享缓冲区管理包括共享缓冲区的结构、页面查找方式、页面淘汰方式等 代码主要在“src/gausskernel/storage/buffer”目录下
行存储介质管理器管理和堆表/索引表文件管理包括几种主要介质操作的抽象接口以及几种主要的、基于磁盘文件系统的堆表/索引表文件操作接口 代码在“src/gausskernel/storage/smgr”目录下
cstore访存管理向上对接SQL引擎,提供对cstore列存储表的向量数组(vector batch)粒度的查询、插入、删除、修改等操作接口;向下根据cstore列存储表CU间、CU内结构,完成对cstore列存储表文件的遍历和增删改查操作;cstore列存储表CU内和CU间的多版本并发控制和可见性判断 代码主要在“src/gausskernel/storage/cstore”目录下的cstore_系列文件中
cstore索引访存管理向上对接SQL引擎,提供对cstore索引表的向量数组粒度的查询、插入等操作接口;向下根据cstore索引表组织结构,完成对指定索引键的查询和插入等操作 代码主要在“src/gausskernel/storage/access/cbtree”目录(cstore列储存B-Tree索引)下和“src/gausskernel/storage/access/psort”目录(cstore列存储psort索引)下
cstore列存储表 CU结构① 和行存不同,cstore列存储表与外存的I/O单元为CU。该部分主要包括CU的内部结构、CU的填充和压缩等操作 ② 代码在“src/gausskernel/storage/cstore/cu.cpp”文件中
cstore列存储表 CU只读共享缓冲区管理包括以CU为单位的只读共享缓冲区的结构、查找、淘汰等 代码主要在“src/gausskernel/storage/cmgr”目录下
cstore列存储表 CU持久化介质模块包括以CU为粒度的、基于磁盘介质的cstore列存储表文件外存I/O操作 代码在“src/gausskernel/storage/cstore/custorage.cpp”文件中
预写日志共享缓冲区和文件管理包括日志记录格式、日志页面格式、日志文件格式、日志插入、日志写入磁盘、日志缓冲区管理、日志归档、日志恢复等操作 代码在“src/gausskernel/storage/access/transam/xlog”系列文件中
检查点和故障恢复管理包括页面淘汰算法和检查点推进算法、双写刷盘(写入磁盘)、页面故障恢复等 代码主要分布在“src/gausskernel/process/postmaster/pagewriter.cpp”、“src/gausskernel/process/postmaster/bgwriter.cpp”、“src/gausskernel/storage/access/transam/double_write.cpp”、“src/gausskernel/storage/access/transam/xlog.cpp”、对应头文件和“src/gausskernel/storage/access/redo”目录
事务管理和并发控制包括锁管理、事务提交流程、快照维护、提交时间戳维护、可见性判断等 代码主要在“src/gausskernel/storage/access/transam”目录下 该部分内容较为复杂,在第5章单独介绍
事务提交日志SLRU(Simple Least Recently Used,简单最近最少使用)共享缓冲区和文件管理包括事务提交日志的页面格式、读写操作、SLRU缓存算法、清理操作等,与事务管理模块一起介绍
事务提交时间戳日志SLRU共享缓冲区和文件管理包括事务提交日志(CSNLOG)的页面格式、读写操作、SLRU缓存算法、清理操作等,与事务管理模块一起介绍
关键控制文件管理主要包括控制文件、根系统表文件等关键文件的读、写操作 代码分布较广

在上述模块基础之上,openGauss磁盘引擎还包括CU压缩、外表、批量导入等功能,代码分布在“src/gausskernel/storage/cstore/compression”、“src/gausskernel/storage/access/dfs”、“src/gausskernel/storage/bulkload”等目录下。
openGauss磁盘引擎的关键技术整体来说包括:
(1) 基于事务提交逻辑时间戳的快照隔离机制以及多版本并发控制技术。
(2) 基于事务号(xid,全称transaction identifier)的行级多版本管理技术。
(3) 基于大内存设计的共享缓冲区管理和淘汰算法。
(4) 平滑无性能波动的增量检查点(checkpoint)技术。
(5) 基于并行回放的快速故障实例恢复技术。
(6) 支持事务语义的DML操作和DDL操作。
(7) 面向OLAP场景的cstore列存储格式。当表中列数比较多、但是访问的列数比较少时可以大大减少不必要的列的I/O开销。
(8) 面向OLAP场景的cstore列存储批量访存接口。向上支持以向量数组为粒度的批量数据访存接口,结合向量化执行引擎提升CPU缓存命中率和系统吞吐率。
(9) 面向OLAP场景的cstore列存储高效压缩算法。基于同一列比较相似的数据特征,在大数据量下获得很高的压缩效果,减少系统的I/O开销。

4.2.2 行存储统一访存接口

如上所述,在openGauss中,提供行存储统一访存接口层,来屏蔽不同行存储子格式内部实现机制对SQL引擎的影响。该行存储统一访存接口层被称为Table Access Method层。根据SQL引擎对行存储表的访存方式,将访存接口分为5类,如表4-5所示。每一类接口的具体操作如表4-6至4-10所示。

表4-5 Table Access Method定义的访存接口

接口类别接口含义
Tuple AM Slot AM元组(tuple)和元组槽(slot)操作抽象层,包括元组数据结构的抽象、元组操作的抽象,执行引擎无须关注元组属于哪种行存储子格式,只需调用元组数据结构基类的抽象操作接口,就可操作不同行存储子格式的元组,从而屏蔽不同行存储子格式物理元组结构、访问方法的差异
TableScan AM表扫描(table scan)抽象层,包括TableScan数据结构的抽象、TableScan管理操作的抽象,执行引擎无须关注行存储子格式内部TableScan结构的差异,通过调用TableScan数据结构基类的抽象管理接口,就可完成不同行存储子格式的TableScan管理,屏蔽不同行存储子格式内部实现的差异
DQL AM元组查询(data query language,DQL)操作抽象层,包括获取元组、元组可见性判断等查询操作的抽象
DML AM元组写操作抽象层,包括元组插入、批插、删除、更新、锁定等接口的抽象
DDL AM表物理操作抽象层,这里统称为DDL抽象层,涉及表物理文件操作的相关接口的抽象,例如CTAS、TRUNCATE、LOAD/COPY、VACUUM、VACUUM FULL、ANALYZE、REBUILD INDEX、ALTER TABLE RESTRUCT等DDL语法。该层也可以支持存储管理的抽象功能,如屏蔽不同行存储子格式的文件/目录管理模块、SMGR访问等差异

表4-6 Tuple AM、Slot AM类访存接口

接口名称接口含义
tableam_tslot_clear清理slot tuple,主要是被ExecClearTuple调用
tableam_tslot_materialize该方法在ExecMaterializeSlot被调用, 将slot中的tuple进行local copy(本地拷贝)
tableam_tslot_get_minimal_tuple获取slot中的minimal tuple(最小化元组),slot负责管理/释放minimal tuple的内存
tableam_tslot_copy_minimal_tuple返回slot中minimal tuple的副本,该副本在当前内存上下文中被分配,需要调用者进行释放操作
tableam_tslot_store_minimal_tuple此函数在指定的TupleTableSlot结构体中存储minimal tuple
tableam_tslot_get_heap_tuple该函数获取slot中的tuple
tableam_tslot_copy_heap_tuple该函数返回slot中tuple的副本,该副本在当前内存上下文中被分配,需要调用者进行释放操作
tableam_tslot_store_tuple该方法将对应的物理元组存储到slot中
tableam_tslot_getsomeattrs强制更新slot中tuple某个属性的values和isnull数组信息
tableam_tslot_getattr获取当前slot中tuple的某个属性信息
tableam_tslot_getallattrs强制更新slot中tuple的values和isnull数组
tableam_tslot_attisnull检查slot中tuple的属性是否为null
tableam_tslot_get_tuple_from_slot从slot中获取一个tuple,并根据relation结构体中行存储子格式信息转换为对应子格式的tuple
tableam_tops_getsysattr获取tuple的系统属性
tableam_tops_form_minimal_tuple根据values和isnull数组内容,新建一个tuple
tableam_tops_form_tuple根据values和isnull数组内容,新建一个minimal tuple
tableam_tops_form_cmprs_tuple根据values和isnull数组内容,新建一个被压缩的tuple
tableam_tops_deform_tuple抽取指定tuple中的data数据到values和isnull数组
tableam_tops_deform_cmprs_tuple抽取被压缩的tuple中的data数据到values和isnull数组
tableam_tops_computedatasize_tuple计算需要构造的tuple的data区域的大小
tableam_tops_fill_tuple根据values和isnull数组中的数据填充到tuple的data区域
tableam_tops_modify_tuple根据一个旧tuple新建一个tuple并更新其values
tableam_tops_free_tuple释放一个tuple的内存
tableam_tops_tuple_getattr获取tuple的某个属性信息
tableam_tops_tuple_attisnull检查tuple的属性是否为null
tableam_tops_copy_tuple拷贝并返回一个tuple
tableam_tops_copy_minimal_tuple拷贝并返回一个minimal tuple
tableam_tops_free_minimal_tuple释放minimal tuple的内存
tableam_tops_new_tuple新建一个tuple
tableam_tops_destroy_tuple销毁一个tuple
tableam_tops_get_t_self获取tuple中的self指针,指向自己在表中的位置
tableam_tops_exec_delete_index_tuples删除索引的tuple
tableam_tops_exec_update_index_tuples更新索引的tuple
tableam_tops_get_tuple_type获取tuple属于哪种存储引擎
tableam_tops_copy_from_insert_batchcopy from场景进行批量INSERT(插入)
tableam_tops_update_tuple_with_oid根据table OID(表的唯一标识号)更新tuple

表4-7 TableScan AM类访存接口

接口名称接口含义
tableam_scan_begin初始化scan结构体,准备执行table scan(全表扫描)算子
tableam_scan_begin_bm准备执行bitmap scan(位图扫描)算子
tableam_scan_begin_sampling初始化堆表(顺序)扫描操作
tableam_scan_getnexttuple返回scan中的下一个tuple
tableam_scan_getpage获取scan中的下一页
tableam_scan_end结束scan,并释放内存
tableam_scan_rescan重置scan
tableam_scan_restrpos重置扫描位置
tableam_scan_markpos记录当前扫描位置
tableam_scan_init_parallel_seqscan初始化并行sequence scan(顺序扫描)

表4-8 DQL AM类访存接口

接口名称接口含义
tableam_tuple_fetch根据tid(元组物理位置)获取tuple
tableam_tuple_satisfies_snapshot指定元组对于快照是否可见
tableam_tuple_get_latest_tid获取tid指向的当前snapshot(快照)可见的最新物理元组

表4-9 DML AM类访存接口

接口名称接口含义
tableam_tuple_insert插入一条元组到表中
tableam_tuple_multi_insert插入多条元组到表中

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值