Impala快速入门——Impala的组件和架构介绍

本文介绍了Impala,一个由Cloudera开发的快速查询系统,用于交互式SQL查询HDFS、HBase和S3上的数据。相比Hive,Impala提供了更高的性能,尤其适合实时查询。Impala的架构包括Impala Daemon、Statestore和Catalog Service,它们协同工作以提供高效的查询处理。此外,文章还对比了Impala和Hive的相同点和不同点,强调了Impala在实时分析和分布式查询中的优势。
摘要由CSDN通过智能技术生成

目录

一、概述

1.1简介

1.2优势

1.3主要特点

二、Impala架构

2.1Impala Daemon

2.2Impala Statestore

2.3Impala Catalog Service

三、Impala查询的执行过程

3.1Impala查询过程图

3.2Impala执行查询的具体过程

四、Impala与Hive的比较

4.1Impala与Hive对比图

4.2Hive与Impala的相同点

4.3Hive与Impala的不同点

4.4总结


一、概述

1.1简介

Impala是由Cloudera公司开发的新型查询系统,能够对存储在HDFS、HBase以及S3上的数据进行快速的交互式SQL查询。另外,impala与Hive使用了统一的存储系统、同样的元数据库、SQL语法(Hive SQL)、ODBC驱动和用户交互接口(Hue),Impala对实时的或者面向批处理的查询提供了一个统一的平台,Impala在性能上比Hive高出3~30倍。

Impala是用于查询大数据的工具的补充,Impala不是取代构建在MapReduce之上的批处理框架,比如Hive。Hive和其他的基于MapReduce的框架适合处理长时间运行的批处理作业,比如涉及到批处理的ETL类型的作业。

注意:Impala于2017年11月15日从Apache的孵化器毕业。

1.2优势

(1)使用的是数据科学家和分析师熟悉的SQL接口
           (2)能查询大数据集
           (3)是集群环境中的分布式查询,便于扩展和使用廉价商用硬件

           (4)能够在不同的分析引擎之前共享数据,比如可以通过pig写数据,使用Hive转换数据,再使用impala查询数据。impala能够读写hive中的表,使用impala对Hive生成的数据进行分析,实现简单的数据交换。

           (5)单一系统用于大数据处理和分析,因此可以避免成本高昂的建模和ETL.

1.3主要特点

(1)支持Hive查询语言(HiveQL)最常见的SQL-92功能,包括 SELECT, JOIN和聚合函数
           (2)支持HDFS, HBase和S3存储, 包括:
                       • HDFS 文件格式: delimited text files, Parquet, Avro, SequenceFile,和 RCFile.
                       • 压缩: Snappy, GZIP, Deflate, BZIP.
           (3)常见的数据访问接口,包括JDBC driver、ODBC driver
           (4)支持impala-shell命令行接口
           (5)Kerberos授权

二、Impala架构

为了避免延迟,impala绕过MapReduce,采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和HBase进行交互查询,性能上比Hive要快。

Impala server 是一个分布式的大规模并行处理(MPP)的数据库引擎, 它由运行在集群中特定主机上的不同守护进程组成。其架构图如下图所示:

2.1Impala Daemon

这个进程是运行在集群每个DataNode节点上的守护进程,是impala的核心组件。在每个节点上这个进程的名字称为impalad。主要负责读写数据,接受  impal

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值