概述
-
Thanks to local processing on data nodes, network bottlenecks are avoided.由于对数据节点进行了本地处理,因此避免了网络瓶颈。
-
A single, open, and unified metadata store can be utilized. 可以利用单个,开放和统一的元数据存储。
-
Costly data format conversion is unnecessary and thus no overhead is incurred. 无需进行昂贵的数据格式转换,因此不会产生任何开销。
-
All data is immediately query-able, with no delays for ETL. 所有数据均可立即查询,而ETL没有延迟。
-
All hardware is utilized for Impala queries as well as for MapReduce. 所有硬件均用于Impala查询以及MapReduce。
-
Only a single machine pool is needed to scale. 仅需单个计算机池即可扩展。
组件
从上图可以看出,Impala 自身包含三个模块:Impalad、Statestore 和 Catalog,除此之外 它还依赖 Hive Metastore 和 HDFS/Hbase/。
Impalad
- 接收 client 的请求、Query 执行并返回给中心协调节点;
- 子节点上的守护进程,负责向 statestore 保持通信,汇报工作。
Catalog
-
分发表的元数据信息到各个 impalad 中;
-
接收来自 statestore 的所有请求。