三种常见的数据库查询引擎执行模型

最新推荐文章于 2024-07-05 18:11:13 发布

喜欢打篮球的普通人

最新推荐文章于 2024-07-05 18:11:13 发布

阅读量1.3k

点赞数

分类专栏：数据库系统原理文章标签：数据库

本文链接：https://blog.csdn.net/u011436427/article/details/121809259

版权

66 篇文章 28 订阅

订阅专栏

又称 Volcano Model 或者 Pipeline Model。

该计算模型将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，查询树自顶向下的调用next()接口，数据则自底向上的被拉取处理。

火山模型的这种处理方式也称为拉取执行模型(Pull Based)。
大多数关系型数据库都是使用迭代模型的，如 SQLite、MongoDB、Impala、DB2、SQLServer、Greenplum、PostgreSQL、Oracle、MySQL 等。
火山模型的优点在于：简单，每个 Operator 可以单独实现逻辑。
火山模型的缺点：查询树调用next()接口次数太多，并且一次只取一条数据，CPU 执行效率低；而 Joins, Subqueries, Order By 等操作经常会阻塞。

Materialization Model

Batch Model

向量化模型和火山模型类似，每个 operator 需要实现一个 next() 函数，但是每次调用 next() 函数会返回一批的元组（tuples），而不是一个元组，所以向量化模型也可称为批处理模型。
向量化模型是火山模型和物化模型的折衷。
向量化模型比较适合 OLAP 查询，因为其大大减少了每个 operator 的调用次数，也就简单减少了虚函数的调用。
Presto、snowflake、SQLServer、Amazon Redshift等数据库支持这种处理模式。
Spark 2.x 的 SQL 引擎开始也支持向量化执行模型
参考：「分布式技术专题」三种常见的数据库查询引擎执行模型