impala presto SparkSql性能测试对比_impala 和spark sql 对比-CSDN博客

目标是为测试impala presto SparkSql谁的性能更佳，以下结果底层查询的都是普通textfile snappy压缩后数据，规模为15台机器，若以orcfile、parquet速度能快数倍

impala与presto性能相当，SparkSql逊色不少。

目前看presto相比impala

1、与hive实时共享元数据，impala需要用另外定时任务广播元数据，新生成的数据，用impala不能立即查询。

2、没有出现操作大数据集有时挂掉的情况

3、presto与hive都由fackbook开源，兼容性应该会更好点

测试过程比较简单，分为四个场景sql查询：

查询id	查询语句	数据量(压缩前)
query1	select sum(pv) from d_op_behavior_host_text_snappy	35G
query2	select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy where pv>0 group by siteid order by pv1 desc limit 11;	35G
query3	select count(*) from dwd.d_ad_3rd_party_fancy_all_data where thisdate='2015-11-10' and hour='17';	200G
query4	select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31'

测试结果对比如下：