impala的最大优势,也是它最大致命弱点。它将要处理的数据全部(有一定的优化和加载规则)加载至内存,在内存中实现数据处理,在所处理的数据较小时,其性能非常显著,但是当数据很大时,它就慢如蜗牛,甚至崩溃,在此时,它远不如hive+mapreduce。
今天的测试:
Impala简单测试汇总:
一、软件环境:
Hadoop 2.0.0-cdh4.2.1
impalad version 1.0 RELEASE
二、硬件环境:
CPU : 24核,型号:Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
内 存: 32G
硬盘空间: 6.6T,9块数据磁盘
操作系统: Cent OS 6.3
服 务 器 :同一网段,7台主机,其中6 台数据节点,6个impalad,1个statestored
三、测试数据:
记录行数:8亿多条
记录大小:349.2G
表 信 息:约180个基本类型字段、2个分区、lzo压缩
四 、测试结果:
涉及具体数据,不便公布。不过可以告知的是,一般count或排序或distinct都得6分钟以上,当加载数据大于有效物理内存时,直接崩溃,其他很多情况下容易造成impalad崩溃退出。impala有待继续改进优化。
如果有impala查询数据的同仁,非常欢迎一起交流,我的QQ:214814466