Impala介绍

最新推荐文章于 2024-01-17 22:57:57 发布

刘李404not found

最新推荐文章于 2024-01-17 22:57:57 发布

阅读量189

点赞数

分类专栏： Hadoop 文章标签： impala

本文链接：https://blog.csdn.net/qq_39680564/article/details/100575251

版权

Hadoop 专栏收录该内容

39 篇文章 1 订阅

订阅专栏

文章目录

一、Impala介绍
二、架构
三、对比
- 3.1 关系数据库和Impala
- 3.2 Hive，Hbase和Impala

一、Impala介绍

Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。
换句话说，Impala是性能最高的SQL引擎（提供类似RDBMS的体验），它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

1.1 Impala的功能

Impala支持内存中数据处理，即，它访问/分析存储在Hadoop数据节点上的数据，而无需数据移动。
您可以使用Impala使用类SQL查询访问数据。
与其他SQL引擎相比，Impala为HDFS中的数据提供了更快的访问。
使用Impala，您可以将数据存储在存储系统中，如HDFS，Apache HBase和Amazon s3。您可以将Impala与业务智能工具（如Tableau，Pentaho，Micro策略和缩放数据）集成。
Impala支持各种文件格式，如LZO，序列文件，Avro，RCFile和Parquet。
Impala使用Apache Hive的元数据，ODBC驱动程序和SQL语法。

1.2 Impala的优点

使用impala，您可以使用传统的SQL知识以极快的速度处理存储在HDFS中的数据。
由于在数据驻留（在Hadoop集群上）时执行数据处理，因此在使用Impala时，不需要对存储在Hadoop上的数据进行数据转换和数据移动。
使用Impala，您可以访问存储在HDFS，HBase和Amazon s3中的数据，而无需了解Java（MapReduce作业）。您可以使用SQL查询的基本概念访问它们。
Impala正在率先使用Parquet文件格式，这是一种针对数据仓库场景中典型的大规模查询进行优化的柱状存储布局。

1.3 Impala的缺点

Impala不提供任何对序列化和反序列化的支持。
Impala只能读取文本文件，而不能读取自定义二进制文件。
每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新。

二、架构

在这里插入图片描述

三、对比

3.1 关系数据库和Impala

Impala	关系型数据库
类似于HiveQL的类SQL	SQL
无法更新或删除单个记录	可以更新或删除单个记录
不支持事务	支持事务
不支持索引	支持索引
存储和管理大量数据（PB）	处理的数据量较少（TB）

3.2 Hive，Hbase和Impala

HBase	Hive	Impala
基于Hadoop的宽列存储数据库	数据仓库软件	管理，分析存储在Hadoop上的数据的工具
宽列存储	关系模型	关系模型
Java语言开发	Java语言开发	C ++、Java语言开发
提供Java，RESTful和Thrift API	提供JDBC，ODBC，Thrift API	提供JDBC和ODBC API
支持C，C＃，C ++，Groovy，Java PHP，Python和Scala等编程语言	支持C ++，Java，PHP和Python等编程语言。	支持所有支持JDBC / ODBC的语言。
提供对触发器的支持	不提供任何触发器支持	不提供对触发器的任何支持

刘李404not found

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Impala介绍

一、Impala介绍Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。换句话说，Impala是性能最高的SQL引擎（提供类似RDBMS的体验），它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。1.1 Impala的功能...
复制链接

扫一扫

专栏目录