Impala介绍
MPP是massively parallelprocessing(大量并行处理)。
Impala是一种新型的MPP查询引擎,每个SQL会同时在多个工作节点上执行,这些工作节点做查询任务的一部分,然后通过网络传递到下一个子任务,中间结果并不会落地。
Impala可以处理的数据包含:HBASE,HDFS,KUDU。
Impala架构
架构图展示impala的架构以及Impala sql查询的执行流程。
词汇表:
- ODBC:open database connection(开放的数据库连接)
- statement:message synchronization node for impala(消息同步节点)
- Catalog:Metadata Service Node in impala(元数据服务节点)
- Impalad:在impala系统中的任务执行节点
- Query Planner:Query Plan Tree(SQL执行计划生成器)
- Coordinator: