Impala概述

Impala:一款开源的针对HDFS和HBASE中PB级别数据进行交互式实时查询工具(快速)

抛弃了MapReduce,使用了类似与传统的MPP数据库技术。

(Mpp:Massively Parallel Processing,大规模并行处理,每个节点资源独立,独立磁盘和独立内存,每个节点通过网络连接,彼此协同工作。先局部聚合最后再整体聚合。)

优缺点

优点:

      1、避免数据落磁盘;

      2、处理进程无需每次启动

      3、默认不会对数据排序

       4、支持多种存储格式

       5、查询速度快,采用了MPP数据库技术

       6、适合交互式计算(适合PB级数据)

MapReduce慢原因:1、Shuffle阶段,存在IO开销;

                                   2、Shuffle阶段默认对Key分区排序

缺点:

     1、属于MPP架构,只能达到百节点级;并发查询达到20左右,整个系统的吞吐已经达到满负荷状态,扩容也无法提高吞吐量;

     2、资源不能通过Yarn统一资源管理 

适用场景:

   Hive:复杂的批处理查询任务,数据转换任务,对实时性要求不高同时数据量大的场景

   Impala:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值