Impala学习笔记 --- Impala相对于Hive所使用的优化技术，性能对比

最新推荐文章于 2024-08-04 03:19:29 发布

杨鑫newlfe

最新推荐文章于 2024-08-04 03:19:29 发布

阅读量588

点赞数

分类专栏：大数据挖掘与大数据应用案例数据库文章标签： Impala SQL Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012965373/article/details/82587967

版权

大数据挖掘与大数据应用案例同时被 2 个专栏收录

536 篇文章 1680 订阅 ¥9.90 ¥99.00

订阅专栏

231 篇文章 11 订阅

订阅专栏

本文详细对比了Impala与Hive在SQL执行上的优化技术。Impala通过避免MapReduce，使用执行计划树，LLVM代码生成，优化IO调度，最大化内存利用等手段提高性能。与Hive相比，Impala执行更快速，适合交互式查询，而Hive更适合批处理。两者共享数据存储和元数据，但在执行计划和数据流上有显著区别。

摘要由CSDN通过智能技术生成

没有使用MapReduce进行并行计算，虽然MapReduce是非常好的并行计算框架，但它更多的面向批处理模式，而不是面向交互式的SQL执行。与MapReduce相比：Impala把整个查询分成一执行计划树，而不是一连串的MapReduce任务，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少的了把中间结果写入磁盘的步骤，再从磁盘读取数据的开销。Impala使用服务的方式避免每次执行查询都需要启动的开销，即相比Hive没了MapReduce启动时间。
使用LLVM产生运行代码，针对特定查询生成特定代码，同时使用Inline的方式减少函数调用的开销，加快执行效率。
充分利用可用的硬件指令。
更好的IO调度，Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势，同时Impala支持直接数据块读取和本地代码计算checksum。
通过选择合适的数据存储格式可以得到最好的性能（Impala支持多种存储格式）。
最大使用内存，中间结果不写磁盘，及时通过网络以stream的方式传递。

相同点：

数据存储：使用相同的存储数据池都支持把数据存储于HDFS, HBase。
元数据：两者使用相同的元数据。
SQL解释处理：

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

杨鑫newlfe 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。