关闭

impala presto SparkSql性能测试对比

8290人阅读 评论(1) 收藏 举报
分类:

目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍

impala与presto性能相当,SparkSql逊色不少。
目前看presto相比impala
1、与hive实时共享元数据,impala需要用另外定时任务广播元数据,新生成的数据,用impala不能立即查询。
2、没有出现操作大数据集有时挂掉的情况
3、presto与hive都由fackbook开源,兼容性应该会更好点

查询 工具 第一次执行时间 第二次执行时间
query1 impala 4.82s 5.56s
presto 6s 5s
sparkSql 13s 9s
query2 impala 12.79s 12s
presto 15s 13s
sparkSql 20s 23s
query3 impala 挂掉 挂掉
presto 63s 58s
sparkSql 88s 77s
query4 impala 131s 148s
presto 136s 128s
sparkSql 187s 188s


查询id 查询语句 数据量(压缩前)
query1 select sum(pv) from d_op_behavior_host_text_snappy 35G
query2 select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy
where pv>0  group by siteid order by pv1 desc limit 11;
35G
query3 select count(*) from dwd.d_ad_3rd_party_fancy_all_data where
thisdate='2015-11-10' and hour='17';
200G
query4 select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31' 1T

0
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:135895次
    • 积分:2356
    • 等级:
    • 排名:第15783名
    • 原创:97篇
    • 转载:25篇
    • 译文:0篇
    • 评论:11条
    文章分类
    最新评论