Impala:一款开源的针对HDFS和HBASE中PB级别数据进行交互式实时查询工具(快速)
抛弃了MapReduce,使用了类似与传统的MPP数据库技术。
(Mpp:Massively Parallel Processing,大规模并行处理,每个节点资源独立,独立磁盘和独立内存,每个节点通过网络连接,彼此协同工作。先局部聚合最后再整体聚合。)
优缺点:
优点:
1、避免数据落磁盘;
2、处理进程无需每次启动
3、默认不会对数据排序
4、支持多种存储格式
5、查询速度快,采用了MPP数据库技术
6、适合交互式计算(适合PB级数据)
MapReduce慢原因:1、Shuffle阶段,存在IO开销;
2、Shuffle阶段默认对Key分区排序
缺点:
1、属于MPP架构,只能达到百节点级;并发查询达到20左右,整个系统的吞吐已经达到满负荷状态,扩容也无法提高吞吐量;
2、资源不能通过Yarn统一资源管理
适用场景:
Hive:复杂的批处理查询任务,数据转换任务,对实时性要求不高同时数据量大的场景
Impala: