impala presto SparkSql性能测试对比

原创 2015年11月20日 11:46:10

目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍

impala与presto性能相当,SparkSql逊色不少。
目前看presto相比impala
1、与hive实时共享元数据,impala需要用另外定时任务广播元数据,新生成的数据,用impala不能立即查询。
2、没有出现操作大数据集有时挂掉的情况
3、presto与hive都由fackbook开源,兼容性应该会更好点

查询 工具 第一次执行时间 第二次执行时间
query1 impala 4.82s 5.56s
presto 6s 5s
sparkSql 13s 9s
query2 impala 12.79s 12s
presto 15s 13s
sparkSql 20s 23s
query3 impala 挂掉 挂掉
presto 63s 58s
sparkSql 88s 77s
query4 impala 131s 148s
presto 136s 128s
sparkSql 187s 188s


查询id 查询语句 数据量(压缩前)
query1 select sum(pv) from d_op_behavior_host_text_snappy 35G
query2 select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy
where pv>0  group by siteid order by pv1 desc limit 11;
35G
query3 select count(*) from dwd.d_ad_3rd_party_fancy_all_data where
thisdate='2015-11-10' and hour='17';
200G
query4 select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31' 1T

大数据时代快速SQL引擎-Impala

背景随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十、几百M也要放到Hadoop上作分析,只会适得...
  • yu616568
  • yu616568
  • 2016年09月04日 13:20
  • 30149

Spark的下一代引擎-Project Tungsten启示录:兼Presto、impala、spark性能根本比较

在过去的一年之中,我们一直在利用Spark做实时交互式分析系统方面的尝试,有兴趣的同学可以看一下我们之前分享的博客《基于Spark的用户分析系统》。我们在不断受到Spark启发的同时,也不得不忍受尚处...

另一种扩展并加速Hadoop计算能力的计算架构—Presto

Hadoop自身的MapReduce计算框架是非常chua
  • cnweike
  • cnweike
  • 2014年09月25日 11:13
  • 5410

近实时运算的利器---presto在公司实践

1.起因 公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高。但在工作时间内,公司业务人员有实时查询需求,现在主要 借助于hive...
  • joomlaer
  • joomlaer
  • 2015年05月21日 11:45
  • 21068

Presto实现原理和美团的使用实践

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来...

Hive on Spark 与Spark SQL比较

Hive on Spark 与Spark SQL比较背景Hive on Spark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引...

Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较

Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较 SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据...
  • oufuji
  • oufuji
  • 2015年12月20日 15:44
  • 3348

Presto查询性能测试记录

一、测试环境 HDFS 七个节点,五个dn,两个nn。Hive配置在其中一个nn,使用MySQL远程元数据库,同一个节点同时开启hiveserver2和 metastore。所有节点内存一致,3...
  • ZHBR_F1
  • ZHBR_F1
  • 2017年05月27日 14:14
  • 994

Presto必知必会

1.      概述Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。 Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。如果你需要处理TB或者P...

Parquet与ORC:高性能列式存储格式

背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现...
  • yu616568
  • yu616568
  • 2016年07月09日 20:37
  • 10970
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:impala presto SparkSql性能测试对比
举报原因:
原因补充:

(最多只允许输入30个字)