数据库内核杂谈阅读笔记_数据库内核 infoq-CSDN博客

本文链接：https://blog.csdn.net/Mrs_Two/article/details/110824746

本文深入探讨了数据库的实现细节，包括解析、绑定、优化和执行过程。讲解了简单数据库的实现，强调了存储和索引优化的重要性，如B树索引、位图索引和哈希索引。还涉及了执行模式，如迭代器模型和矢量化执行。此外，提到了排序、聚合、JOIN操作的优化方法以及优化器的工作原理。文章最后讨论了事务和并发控制，并简要提及了单机数据库向分布式数据库的扩展策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据库内核杂谈-InfoQ

文章目录

简单数据库实现

一个sql查询语句，可以拆分成原子operator的叠加，把operator组建成operator tree，自底向上执行最终得到结果
Mysql和Postgres中执行EXPLAIN SQL_STMT可以打印生成的operator tree

存储

分离元数据和数据的存储
修改文件造成较大的读写负担，可以使用slot_table记录信息，并且使用append only的形式(对于数据文件的修改也用append only的形式)，在读取数据时先读取slot_table，然后逆序逆序读取所有行的标注信息。随着数据文件增加，使用vacuum操作(compact)，读取数据文件和slot_table根据标注把有效的数据行写回新的文件。
不适用明文而使用raw byte来存储数据配合高效的编码和解码算法
类似雪花模型，需要存多且大的实体表，但是语句只需要读取相关的几个属性。可以使用列村而不是行存。在

索引优化

哈希索引：建立哈希表
B树索引：建立B/B+树

优化：对于经常查询的列可以把列的数据直接存储在索引中，省去读取文件的时间

缺点：高并发环境下需要加锁，可以用skip list代替

两种索引相比更建议使用B树索引，且B树索引得到的结果对于索引列是有序的

Because of the limited utility of hash indexes, a B-tree index should generally be preferred over a hash index. We do not have sufficient evidence that hash indexes are actually faster than B-trees even for = comparisons. Moreover, hash indexes require coarser locks.

位图索引：适合基数小的列来做索引

例：
```
sex: bitmap
male: 10001111
female: 01110000
```
查询时只需要和位图做与操作，选出结果为1的即可

局限：只适合列基数小的，且不适合高并发环境

执行模式

用户输入SQL语句

Parsing

通过编译器把语句编译(parsing)成抽象的语法树

Binding

负责将语法树和数据库的metadata结合，附上语义。自底向上对整颗语法树的节点依次检查，同时在节点绑定元数据，最终生成含有语义的语法树。

binding完成之后，SQL语句就算编译通过。

Optimizing

给定语法树，首先生成一个逻辑执行树，执行树上的每一个节点称为逻辑操作符。对应每个逻辑操作符，扩展出所有的物理操作符，逻辑操作符表示某个功能，物理操作符则说明用什么方法来实现这个功能，可能有多个物理执行树。下一步在多个物理执行树中选出最优的一个，这步操作比较复杂。

Executing

从执行树底层开始依次执行。

执行器的执行模式：

materialization模式，代码运行时自底向上，每个节点process只需要运行一次，一次性处理全部输入
iterator model/volcano model，第一种模式可能面临OOM(out of memory)的问题，使用类似流系统的运行模式(其实是流系统借鉴了数据库的运行模式)，每个操作符既是producer，又是consumer。但对于一些操作，如sort数据会阻塞等待所有数据，需要spill to disk操作。
vectorization model/batch model：一批一批数据处理，

排序和聚合

排序

需要排序的sql语句：Order By, Distinct

实现：

外部归并排序(external merge sort) 用读写数据的次数衡量算法
读取B+树的索引结果

聚合

单项聚合：聚合之后的结果是一个单项值

只需要保存聚合中间值，根据新输入值不断更新即可，且内存消耗不大
组队聚合：结合group by的聚合

使用排序或者哈希表来实现

遇到内存不够大的问题，使用外部哈希表，借助文件系统暂存数据

JOIN

Table A: M个block m个row

Table B: N个block n个row

Join基于equally join

Join算子实现

NestedLoopJoin
SortMergeJoin

类似Merge的过程，每个表维护一个指针，根据Join的键做排序

时间复杂度 M+N+2M*log2M + 2N *log2N
HashJoin

时间是线性的，在绝大多数情况下，性能是最佳的

优化器

优化运行时间

Query Rewrite

在这一步对原来的语法树进行等价的语义重写，优化掉无效或者无意义的操作

常见规则

Projections push down，把需要哪些column直接下推到叶节点的table scan，可以减少数据的大小并提高scan的速度
Predicates push down，把filter predicates往下推送
Impossible/Unnecessary Predicates: 计算Predicates的值，如果恒为false( where 1 = 0 )直接返回空集，如果恒为true，直接去掉predicates
Merge Predicates：优化器把多个predicates合并
Join elimination