Impala

最新推荐文章于 2024-04-28 17:56:17 发布

BoomLee

最新推荐文章于 2024-04-28 17:56:17 发布

阅读量1k

点赞数

分类专栏： Bigdata 文章标签： hadoop mapreduce big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BoomLee/article/details/124570548

版权

Bigdata 专栏收录该内容

3 篇文章 3 订阅

订阅专栏

交互式查询工具 Imapala

第1部分 Impala 概念

1.1 Impala 是什么

Impala是Cloudera提供的一款开源的针对HDFS和HBASE中的PB级别数据进行交互式实时查询(Impala速度快)，Impala是参照谷歌的新三篇论文当中的Dremel实现而来，其中旧三篇论文分别是（BigTable，GFS，MapReduce）分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。

Impala最大卖点和最大特点就是快速，Impala中文翻译是高角羚羊。

1.2 Impala 优缺点

Impala抛弃了MapReduce使用了类似于传统的MPP数据库技术，大大提高了查询的速度

MPP (Massively Parallel Processing)，就是大规模并行处理，在MPP集群中，每个节点资源都是独立享有也就是有独立的磁盘和内存，每个节点通过网络互相连接，彼此协同计算，作为整体提供数据服务。

优点：

基于内存运算，不需要把中间结果写入磁盘，省掉了大量的I/O开销
无需转换为 MapReduce，直接访问存储在HDFS，HBase中的数据进行作业调度，速度快
使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在同一台机器上进行，减少了网络开销
支持各种文件格式，如TEXTFILE 、SEQUENCEFILE、RCFile、Parquet
可以访问Hive的metastore，对Hive数据直接做数据分析

缺点:

对内存的依赖大，且完全依赖于Hive
实践中，分区超过1万，性能严重下降
只能读取文本文件，而不能直接读取自定义二进制文件
每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新

Impala 和 Hive 对比

BoomLee CSDN认证博客专家 CSDN认证企业博客

码龄7年

79: 原创

2万+: 周排名

3万+: 总排名

30万+: 访问

: 等级

3251: 积分

3995: 粉丝

123: 获赞

39: 评论

476: 收藏

私信

关注

分类专栏

最新评论

windows环境下netcat的安装及使用
达斯_0227: 有帮助！
GeoMesa时空基础及应⽤场景
Univr: 请问GeoMesa是不是数据库时空引擎的一部分的意思呀？我看到图里的数据库时空引擎可以连接SQL、NoSQL各种类型，但GeoMesa貌似是只针对NoSQL数据库的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。