Impala 简介

Impala是Hadoop之上的一款SQL查询引擎。使用Impala,可以通过标准SQL语法如SELECT、JOIN及聚合函数等实时地查询Hadoop上的数据(HDFS数据或者是HBase中的数据)。Impala使用和Apache Hive同样的metadata,SQL 语法(Hive SQL),ODBC驱动及Hue接口,提供一个面向批处理或实时查询的统一平台。(因而Hive用户可以很方面的去使用Impala)

架构
Impala绕过了MapReduce,通过分布式的类似于关系型数据库中查询引擎直接查询HDFS上的数据,从而比Hive有更高的性能,因为Hive的执行是转换为MapReduce操作,而MapReduce的响应延迟较高。下图是Impala的架构,

这里写图片描述

Impala主要由三种服务组成,
1 Impalad
接收客户端请求并安排在集群上执行,同时执行从其他 Daemon上发来的单个执行片。Impala部署在集群的DataNode上,可允许Impala利用数据本地化的特点而不必通过网络传输即可在文件系统中读取数据块。

2 Statestored
Impala的元数据订阅-发布服务,单一实例,将集群元数据传播到所有Impala进程。

3 Catalogd
Impala的目录资源库与元数据的访问网关,通过它,Impala可执行DDL命令且与外部元数据存储如Hive MetaStore同步。

关于Imapla的使用,见后续文章~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值