Apache Impala笔记

Apache Impala是一款高效率的SQL查询工具,与Hive共享元数据但避免了MapReduce,提供实时交互查询。它依赖Hive Metastore,支持大部分Hive SQL,但不支持UDF,且内存消耗大,无容错机制。Impala由Impalad、State Store和Catalogd等组件构成,用于集群部署,执行流程包括SQL解析、编译和C++后端执行。安装涉及复杂的YUM源配置和依赖管理。
摘要由CSDN通过智能技术生成

Apache Impala

  • impla是个实时的sql查询工具,类似于hive的操作方式,只不过执行的效率极高,号称当下大数据生态圈中执行效率最高的sql类软件
  • impala来自于cloudera,后来贡献给了apache
  • impala工作底层执行依赖于hive 与hive共用一套元数据存储。在使用impala的时候,必须保证hive服务是正常可靠的,至少metastore开启。
  • impala最大的跟hive的不同在于 不在把sql编译成mr程序执行 编译成执行计划数(勘误:计划树)。
  • impala的sql语法几乎兼容hive的sql语句。

impala优缺点

  • 优点:
    • 不经过MapReduce
    • 直接操作HDFS数据
    • 查询数据采用拉的方式
    • 交互式–实时
  • 缺点
    • 完全依赖于hive的meatstore
    • 容错–无容错
    • 消耗内存大
    • 底层使用的C++,不支持UDF

impala是一个适用于实时交互查询的sql软件 hive适合于批处理查询的sql软件。通常是两个互相配合。

  • impala 可以集群部署
    • Impalad(impala server):可以部署多个不同机器上,通常与datanode部署在同一个节点 方便数据本地计算,负责具体执行本次查询sql的impalad称之为Coordinator。每个impala server都可以对外提供服务。
    • impala state store:主要是保存impalad的状态信息 监视其健
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值