Greenplum性能调试记录

本文记录了Greenplum的性能调试过程,包括参数配置、调优方法和并发测试。通过分析发现,Greenplum在实时性、数据吞吐效率上优于类Hadoop工具。但现有硬件条件下,网络IO和磁盘IO成为瓶颈,导致性能受限。建议将实时性要求高的短作业迁移至Greenplum,避免批处理任务。
摘要由CSDN通过智能技术生成

前言:

         以目前的使用体验的话,Greenplum(以下简称GP)的实时性确实比较高,从存储层到计算层,数据吞吐效率比类Hadoop生态圈的sql工具要好得多。

伴随性能的提升,同时加深的是gp对硬件的要求。

        就目前的GP集群的硬件配置情况来说:

               5台22线程,64G内存,2T硬盘,千兆网卡机器(整体情况是110线程,320GB内存,disk IO 150MB/s,网络 IO 150MB/s)

               与现今的spark集群相比(10台22线程,128G内存,30T硬盘,千兆网卡),sql查询性能提高50%-300%。以下是水星线上任务在GP和spark上运行

        的对比表:

-------------------------------------------------------------------------------------------
Sql1: select count(*) from mercury.url_keyword where (keyword rlike '汽车' or keyword rlike '宝马') ;
-------------------------------------------------------------------------------------------
Sql2: select count(1) from mercury.mds_mercury_gid_dsp_c where dt='work' and Cbehe=1 and Cbiddingx=1;
--------------------------------------------------------------------------------------------
Sql3: select count(1) from mercury.url_tag_raw where dt='work' and tiyu=1 and keji=1;
-------------------------------------------------------------------------------------------
Sql4: select D.view_cnt,count(*) as gid_cnt 
from ( 
select if(C.cnt<30,C.cnt,20) as view_cnt 
from ( 
select B.gid,count(*) as cnt 
from 
(select url,keyword from url_keyword where (keyword rlike '汽车' or keyword rlike '宝马')) A 
join mercury.sds_mercury_gid_cid_url B 
on A.url=B.url group by B.gid 
) C 
) D group by D.view_cnt;
Sql
spark用时
gp用时
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值