【大数据之数据仓库】GreenPlum优化器对比测试

在《 【大数据之数据仓库】选型流水记》一文中有提及,当时没有测试GreenPlum的quicklz压缩算法和ORCA查询优化器,考虑到quicklz压缩算法因为版权问题不会开源(详情请参阅: https://github.com/greenplum-db/gpdb/blob/master/src/backend/catalog/quicklz_compression.c),今天我们就来补上已开源的ORCA查询优化器这一段。

GreenPlum有2个查询优化器:legacy query optimizer(简称LQO)和pivotal query optimizer(简称PQO),而后者就是传说中的ORCA,我把之前LQO和PQO的TPCH对比测试做了简要汇总,整理在本文,以飨各位同学。测试拓扑延续《【大数据之数据仓库】基准测试之TPCH》中的测试环境,选择了10GB和100GB两种规格的数据集,以达到测试纯内存、内存+磁盘这样两种场景。

10GB
10GB数据集的数据基本都在内存里,没有了磁盘IO开销:

 
100GB

 
两个测试结果显示,PQO并没有比LQO占明显优势啊, 为什么?
这里有一篇关于PQO的历史: https://www.pivotalguru.com/?p=971,简单来说就是:LQO源自postgreSQL的查询优化器,并对其进行了分布式改造,而PQO是对LQO的重构,增强了性能和可维护性。可是,还是回答不了前面的问题......
又翻到一篇关于GreenPlum 4.3版本发布信息的博文: https://www.pivotalguru.com/?p=614,我把其中比较重要部分截图出来如下:
 
这里有对PQO(ORCA)做了比较具体的描述:1.优化了某些边缘用例;2.优化了某些带分区表、子查询等特殊场景的性能。
看到这里,顿悟了一下,我正在做的TPCH测试,属于Ad-Hoc类型,才22个用例,相对于TPCDS决策支持类型来讲属于比较比较常用和常见的,而且对数据集中的事实表,我也确实没有分区(想知道原因可以留言)......哦哦哦,难怪没有优势=_____=
那,如果换用TPCDS来对比测试,PQO会不会有优势呢?我想这篇HAWQ测试可以告诉我们一些答案: https://www.pivotalguru.com/?p=1045

本文来自网易云社区,经作者何李夫授权发布。

原文地址:【大数据之数据仓库】GreenPlum优化器对比测试

更多网易研发、产品、运营经验分享请访问网易云社区。 

Greenplum 之前是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。目前 Greenplum 已经归属 Pivotal。 Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力,支持大数据的超高性能分析查询。 GreenPlum 主要特性: 大规模并行处理架构 高性能加载,使用 MPP 技术,提供 Petabyte 级别数据量的加载性能 大数据工作流查询优化 多态数据存储和执行 基于 Apache MADLib 的高级机器学习功能 Greenplum 采用 Apache 协议开源之后,加上之前的 HAWQ,PostgreSQL 以及 PostGIS,完全可以构建一体化的 PostgreSQL 企业数据架构。 Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。当前使用的 OTLP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那采用MPP系统就要好,相反就不合适了。 标签:Greenplum
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值