数据库向量化入门与实现

最新推荐文章于 2024-03-21 20:16:27 发布

酷克数据HashData

最新推荐文章于 2024-03-21 20:16:27 发布

阅读量641

点赞数

分类专栏：解决方案产品动态文章标签：数据库 postgresql sql

本文链接：https://blog.csdn.net/m0_54979897/article/details/127108780

版权

产品动态同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

解决方案

16 篇文章 0 订阅

订阅专栏

随着数据库软硬件技术的发展，经典的 SQL 计算引擎逐渐成为数据库系统的性能瓶颈，尤其是对于涉及到大量计算的 OLAP 场景。

如何充分发挥底层硬件的能力，提升数据库系统的性能，成为近年来数据库领域的热门研究方向，而向量化执行就是解决上述问题的一种有效手段，本文主要对向量化技术的原理及优点进行简单的介绍。

为什么数据库需要向量化？
MPP数据库的API（Application Programming Interface）或者命令行接收到了SQL查询请求之后，系统先经过查询解析，然后进行查询优化，通过任务调度执行从存储引擎里面把数据读取出来，计算出结果集，返回给客户。

一个查询语句经过词法分析、语法分析、语义检查后生成的结果叫做Query Tree，经过优化器之后的结果叫做Plan Tree。
在这里插入图片描述
传统数据库执行查询计划通常采用火山模型的方式，流程如上图所示。

火山模型具有简单、直观、易用等优点，早期数据库受限于硬件水平，IO、内存和CPU资源都非常昂贵，火山模型能够极大缩减内存使用量，因而被各大厂商普遍采用。

如今，随着硬件技术的不断发展，火山模型的弊端也逐渐凸显。这种方式存在重复性执行多、反序列化代价高、数据局部性差等缺陷，而且一次执行仅处理一行数据，CPU花费大量时间在遍历查询操作树上，同时也没有针对CPU的SIMD能力等特性做优化，从而造成查询执行效率低下的问题。
在这里插入图片描述
据我们在PostgreSQL上实际测试，对于select sum(a) from table这样的查询，火山模型在执行查询计划时，大部分时间用于读取数据、对数据的反序列化、遍历执行树等操作上，用于实际SUM运算的时间不足4%。