GreenPlum优化器Orca论文笔记

最新推荐文章于 2024-02-21 12:38:18 发布

Aegeaner

最新推荐文章于 2024-02-21 12:38:18 发布

阅读量3.2k

点赞数 1

文章标签： greenplum 数据库优化器

本文链接：https://blog.csdn.net/Aegeaner/article/details/78767642

版权

一、简介

Orca特性

模块化
可扩展性
适应多核
可验证性
性能

二、预备知识

MPP（大规模并行处理）

Share-nothing计算结构
两个以上的协调处理器
每个处理器有自己的内存，OS和硬盘
Master负责数据库实例之间的工作协调，每部分数据处理和存储的工作称为Segements。
当查询提交到master，查询会被优化并拆分为小的部分，并被分发为Segments。
通过网络层互联，实现Segments之间的进程间通信。

在查询执行中，数据可以通过多种方式分发到Segments：

哈希分发：通过哈希汉书
复制分发：全表复制存储到每个实现Segments之间的进程间通信
单例分发：全表从多个Segment汇集到一个Host

SQL on Hadoop

Hive: HiveQL编译为MapReduce作业，需要优化器提高性能
Pivotal HAWQ: 使用Orca优化器，CBO优化
其他：Cloudera的Impala，Facebook的Presto，只支持部分SQL标准，只有RBO（写作这篇论文时的情况）

三、ORCA架构

Orca是一个现代的自顶向下的，基于Cascades优化框架的查询优化器。Orca和数据库系统是松耦合的，这样它可以支持不同的计算架构（如MPP和Hadoop）。

DXL

Data eXchange Language，优化器和数据库系统之间的通讯协议。分为三种：DXL Query， DXL MD， DXL Plan。

Memo

优化器生成的所有可行计划的空间被编码到内存中叫做Memo的数据结构中。Memo数据结构由一系列叫做groups的容器组成，每个group包含逻辑等价的表达式。不同的Memo Group表达不同的查询子目标（如表的filter，两个表的join）。Group成员叫做group expression，通过不同的逻辑方式达成group的目标（如join的不同顺序）。每个group expression是一个包含其他group作为它的子女的操作符，所以这是一个递归的结构。