Impala简介，以及Hive, impala 的比较

最新推荐文章于 2024-05-14 02:36:12 发布

qililong88

最新推荐文章于 2024-05-14 02:36:12 发布

阅读量233

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qililong88/article/details/105128437

版权

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的 Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。

Impalad: 与DataNode运行在同一节点上，由Impalad进程表示，它接收客户端的查询请求（接收查询请求的Impalad为 Coordinator，Coordinator通过JNI调用java前端解释SQL查询语句，生成查询计划树，再通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行），**读写数据，并行执行查询，并把结果通过网络流式的传送回给Coordinator，由Coordinator返回给客户端。****同时Impalad也与State Store保持连接，用于确定哪个Impalad是健康和可以接受新的工作。**在Impalad中启动三个ThriftServer: beeswax_server（连接客户端），hs2_server（借用Hive元数据）， be_server（Impalad内部使用）和一个ImpalaServer服务。
Impala State Store: 跟踪集群中的Impalad的健康状态及位置信息，由statestored进程表示

最低0.47元/天解锁文章

qililong88

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Impala简介，以及Hive, impala 的比较

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的 Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统...
复制链接

扫一扫

专栏目录