目录
MatrixOne数据库是什么?
MatrixOne是一个新一代超融合异构数据库,致力于打造单一架构处理TP、AP、流计算等多种负载的极简大数据引擎。MatrixOne由Go语言所开发,并已于2021年10月开源,目前已经release到0.3版本。在MatrixOne已发布的性能报告中,与业界领先的OLAP数据库Clickhouse相比也不落下风。作为一款Go语言实现的数据库,居然可以与C++实现的顶级OLAP数据库性能媲美,这其中就涉及到了很多方面的优化,包括高性能哈希表的实现,本文就将详细说明MatrixOne是如何用Go实现高性能哈希表的。
Github地址:https://github.com/matrixorigin/matrixone
哈希表数据结构基础
哈希表(Hashtable)是一种非常基础的数据结构,对于数据库的分组聚合和Join查询的性能至关重要。以如下的分组聚合为例(备注,图引自参考文献1):
SELECT col, count(*) FROM table GROUP BY col
它包含两个处理阶段:第1阶段是使用数据源的数据建立一个哈希表。哈希表中的每条记录都与一个计数器有关。如果记录是新插入的,相关的计数器被设置为1;否则,计数器被递增。第二阶段是将哈希表中的记录集合成一种可用于进一步查询处理的格式。
对于Join查询而言,以如下SQL为例:
SELECT A.left_col, B.right_col FROM A JOIN B USING (key_col)
它同样也有两个阶段:第一阶段是使用Join语句右侧表的数据建立一个哈希表,第二阶段是从左侧表中读取数据,并快速探测刚刚建立的哈希表。构建阶段与上面的分组实现类似,但每个哈希表的槽位都存储了对右边列的引用。
由此可见,哈希表对于数据库的SQL基础能力起着很关键的作用 ,