Apache Impala架构解析及与Hive、SparkSQL的性能比较_hive引擎执行效率对比

最新推荐文章于 2024-09-03 07:10:27 发布

2301_82241942

最新推荐文章于 2024-09-03 07:10:27 发布

阅读量549

点赞数 3

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2301_82241942/article/details/138854155

版权

程序员专栏收录该内容

129 篇文章 2 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

Impalad是Impala的核心进程，运行在所有的数据节点上，可以读写数据，并接收客户端的查询请求，并行执行来自集群中其他节点的查询请求，将中间结果返回给调度节点。调用节点将结果返回给客户端。用户在Impala集群上的某个节点提交数据处理请求则该节点称为coordinator node（协调器节点）,其他的集群节点传输其中的处理的部分数据到该coordinator node，coordinator node负责构建最终的结果数据返回给用户。
Impala 支持在提交任务的时候(采用JDBC ,ODBC 方式) 采用round-robin算法来实现负载均衡,将任务提交到不同的节点上
Impalad 进程通过持续的和statestore 通信来确认自己所在的节点是否健康和是否可以接受新的任务请求

Impala Statestore（主要优化点，线程数）

状态管理进程，定时检查The Impala Daemon的健康状况，协调各个运行Impalad的实例之间的信息关系，Impala正是通过这些信息去定位查询请求所要的数据，进程名叫作 statestored，在集群中只需要启动一个这样的进程，如果Impala节点由于物理原因、网络原因、软件原因或者其他原因而下线，Statestore会通知其他节点，避免查询任务分发到不可用的节点上。

Impala Catalog Service（元数据管理和元存储）

元数据管理服务，进程名叫做catalogd，将数据表变化的信息分发给各个进程。接收来自statestore的所有请求，每个Impala节点在本地缓存所有元数据。当处理极大量的数据和/或许多分区时，获得表特定的元数据可能需要大量的时间。因此，本地存储的元数据缓存有助于立即提供这样的信息。当表定义或表数据更新时，其他Impala后台进程必须通过检索最新元数据来更新其元数据缓存，然后对相关表发出新查询。

其他组件列表

Impala client：将HiveQL请求送给Impalad，并等待结果返回给用户
Impalad：

Planner > FE(JAVA)：负责解析查询请求，并生成执行计划树（Query Plan Tree）。

Coordinator > BE(C++)：拆解请求（Fragment），负责定位数据位置，并发送请求到Exec Engine，汇聚请求结果上报。

Exec Engine > BE(C++)：执行Fragment子查询，比如scan，Aggregation，Merge etc。
statestore server：维护Impalad的伙伴关系，负责通知伙伴关系变化，类似于仪表盘的zk的故障监控功能。

meta server：

Hive Meta Storage：用户维护表的schema信息等元数据（存在于一个关系型数据库）。

NameNode of HDFS：用于定位hdfs的数据位置。

HMaster of HBase：用于定位HBase的数据的位置。

storage server：

HDFS：HDFS的DataNode服务。

HBASE：HBase的RegionServer服务。

四、Impala的优缺点

Impala的优点

Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。
省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。
Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式，而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶，因此可做更多的查询优化，从而省掉不必要的shuffle、sort等开销。
通过使用LLVM来统一编译运行时代码，避免了为支持通用编译而带来的不必要开销。
用C++实现，做了很多有针对性的硬件优化，例如使用SSE指令。
使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在同一台机器上进行，减少了网络开销