Impala之01-基本介绍

最新推荐文章于 2023-08-07 09:47:19 发布

Levine-Huang

最新推荐文章于 2023-08-07 09:47:19 发布

阅读量680

点赞数

分类专栏： Big Data 文章标签： impala 大数据

本文链接：https://blog.csdn.net/sinat_25059791/article/details/68620549

版权

Big Data 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

 
 简介 

 
 Impala是Cloudera公司主导开发的新型查询系统，是Google Dremel的开源实现 
 。 
 它提供SQL语义，能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但是由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性；相比之下，Impala的最大特点也是最大卖点就是它的快速。 

 
 性能 

 
 Impala是hadoop上交互式MPP SQL引擎， 也是目前性能最好的开源SQL-on-hadoop方案，能够 
 实现对海量数据的实时查询分析。 
  如下图所示， impala性能超过SparkSQL、 Presto、 Hive。 

 
 优势 

快速

 
 可以方便地执行SQL语句，在数秒内返回查询分析结果。 

 
 这一点，其实还要依赖于你在HDFS或HBase上存储的数据的规模，依赖于你对Impala系统的配置调优情况，可能还依赖于你写的SQL语句的执行效率。 

灵活

 
 可以直接查询存储在HDFS上的原生数据，也可以查询经过优化设计而存储的数据，只要数据的格式它们能够兼容MapReduce、Hive、Pig等等。 

整合&开放

 
 可以非常容易地与Hadoop系统整合，并使用Hadoop生态系统的资源和优势，也不需要将数据迁移到特定的存储系统就能满足查询分析的要求。 

可伸缩性

 
 可以很好地与一些BI应用系统协同工作，如Microstrategy、Tableau、Qlikview，等等。 

 
 支持特性 

 
 Impala支持的特性，主要包括如下几点： 

对 ANSI-92 SQL标准的支持

 
 Impala支持ANSI-92 SQL所有子集，包括CREATE、ALTER、SELECT、INSERT、JOIN、GROUP BY以及子查询。它还支持分区JOIN、常用的聚合函数（SUM、COUNT、MAX、MIN、AVG等等）、topN查询。你使用这些语句时，可以像使用关系数据库中使用的SQL语句一样去设计，很容易上手。 

数据来源与数据格式

 
 Impala可以操作HDFS、HBase中存储的数据，支持如下HDFS的支持文件格式：Text file、SequenceFile、RCFile、Avro file、Parquet，支持的压缩格式有：Snappy、GZIP、Deflate、BZIP，其中Snappy压缩格式的性能更好一些。 

支持的数据访问接口

 
 主要包括Hive所支持的如下接口：JDBC Driver、ODBC Driver、Hue Beeswax、Cloudera Impala Query UI.，另外，还可以通过CLI接口（也就是Impala Shell）访问。 

 
 Reference： 

 
 http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/ 

 
 http://shiyanjun.cn/archives/507.html 

 
 更多文章欢迎关注微信公众号：大数据学苑（ 
 Bigdata-Eden 
 ）

Levine-Huang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录