Impala白皮书

Impala是一款开源的MPP SQL引擎,专为Hadoop设计,提供低延迟、高并发的BI和分析查询。文章介绍了Impala的用户视角,包括物理schema设计和SQL支持,以及其独特的分布式架构,强调了其在多用户场景下的卓越性能和与Hadoop生态的紧密集成。
摘要由CSDN通过智能技术生成

简介

Impala是基于Hadoop数据处理环境形成的一个当代,开源的MPP SQL引擎。Impala提供低延迟,高并发的BI、分析类型的查询,这篇文章从用户的角度介绍Impala,Impala架构,主要的组件,以及与其他SQL-on-Hadoop系统的性能对比

介绍

Impala是一个开源的,完全集成的,最先进的MPP SQL查询引擎,能够很好的利用Hadoop的灵活性和伸缩性。Impala旨在融合传统分析数据的SQL支持和多用户性能,Hadoop的伸缩性和灵活性,生产级别的安全性。Impala的测试版本是在2012年发布,Impala2.0是在2014年发布,目前已经有相当大的下载量。
不像其他系统(Postgres的分支),Impala是一个全新的引擎,是用C++和Java编写的。利用标准组件(HDFS,HBase,Metastore,Yarn,Sentry)保持Hadoop的灵活性,能够读取许多文件格式(Parquet,Avro,RCFiles)。为了减少延迟,避免使用MapReduce或者远程读取数据。Impala实现一个基于后端进程的分布式架构,这些进程负责执行查询,运行在与Hadoop架构相同的机器上。依赖特定的应用场景,Impala的性能远超商业的MPP分析数据库。
这篇文章讨论Impala提供给用户的服务,Impala架构以及主要组件。Impala可获取的最高性能是使用HDFS作为底层存储,使用HBase作为底层存储会有一些显著的不同。
Impala是一个高性能的SQL-on-Hadoop系统,尤

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值