【巨杉数据库Sequoiadb】用pg对500W数据进行group by操作,耗时过长(50秒)

【用户咨询】 
用sequoiasql-postgresql创建一个关联表,存入500W数据。在创建索引的情况下,用pg进行简单的group by查询,平均耗时是50秒,是否可以进一步优化? 
【问题描述】 
1.集群部署情况 
   三台主机对应一个分区组,每台主机均部署有coord、cata、data节点。 
2.表属性 
   一个500w数据的关联表b_qt_swdj和一个800w数据的pg原生表b_qt_swdj1,两个表结构相同,一共39个字段。 
3.sample和语句 
   对关联表执行查询: 
   ①SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj group by sw_scjy_yb; 
   ②SELECT count(1) from b_qt_swdj; 
   对原生表执行查询: 
   ③SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj1 group by sw_scjy_yb; 
   ④SELECT count(1) from b_qt_swdj1; 
    用db内置sql执行①,耗时57秒。执行②,耗时33秒。 
    用pg执行①,耗时50秒。执行②,耗时44秒。

用pg执行③,耗时8秒。执行④,耗时3秒。 
4.网络带宽 
    传输数据时约为46MB/S。 
5.有关截图 见附件《截图三》

【解决办法】 
SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj1 group by sw_scjy_yb;在pg耗时和使用sdb内置sql耗时差不多,都是50S左右。跟pg关系不大。 
从pg的访问计划(见截图三)来看,绝大部分耗时也是在select上。 
建议一:应该考虑在sdb端对表做分区,提高数据抽取并发度去提高性能。 
建议二:对于大表的统计推荐使用SparkSQL作为sql引擎。 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69935160/viewspace-2653611/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/69935160/viewspace-2653611/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值