HIVE2.0增加了LLAP(低延迟分析处理),并在2.1版本进行了改进,相较于HIVE 1有了25倍的查询性能提升。LLAP以多线程方式采用内存进行计算。智能地将数据缓存到多台机器内存中,并允许所有客户端共享这些缓存的数据,同时保留了弹性伸缩能力。详见官网
- LLAP采用缓存持久化查询来避免较长的启动时间;
- 内存查询,并在所有SQL用户之间共享;
- 细粒度的资源管理和占有,适合多用户高并发操作;
Carter Shanklin & Nita Dembla将其与另外一个SQL on Hadoop 查询引擎impala进行了比较
环境:相同硬件和数据集。其中impala通过CDH5.8版本引入,impala版本为2.6.0,Impala的运行时过滤功能已针对此测试中的所有查询启用。
数据集: HIVE在ORC格式下效果最好,impala在Parquet格式下效果最好,所以impala采用Parquet格式,采用snappy压缩。采用相同的分区方式。
查询:impala本意设计为与HIVE高度兼容,但是由于SQL奇偶校验问题,impala中出现了语法错误的查询。查询时间采用相同的计量标准。
运行时间比较