[Hive 进阶]-- 7种可以提高 Hive 查询速度的方法

oo寻梦in记

已于 2023-03-13 16:32:47 修改

阅读量2.1w

点赞数 13

分类专栏： Apache Hive 数据湖仓架构设计文章标签： Hive 优化大数据数据仓库

于 2019-07-17 11:26:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/high2011/article/details/96271903

版权

Apache Hive 同时被 3 个专栏收录

38 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

35 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

33 篇文章

订阅专栏

本文介绍了提高Apache Hive查询性能的七个方法，包括使用Tez引擎、向量化、ORCFile存储格式、分区、分桶、CBO查询优化器以及编写高效的SQL。通过这些策略，可以显著加快在大数据环境下的数据处理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何提高Hive 的查询性能？

Apache Hive是一种强大的数据分析工具。在处理数PB的数据时，了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的，如有不足之处，望指出。

1、使用Tez引擎

Apache Tez Engine是一个可扩展的框架，用于构建高性能批处理和交互式数据处理。它由YARN在Hadoop中调度。Tez通过提高处理速度和保持MapReduce扩展到数PB数据的能力来改进MapReduce job。

通过设置hive.execution.engine 为tez：可以在环境中启用Tez引擎：

set hive.execution.engine=tez;

2、使用向量化

向量化通过在单个操作中获取 1024 行而不是每次只获取单行来改善 scans, aggregations, filters 和 join 这类操作的性能。它大大减少了扫描、过滤器、聚合和
连接等典型查询操作的CPU 使用。

我们可以通过执行以下命令在环境中启用向量化：

set hive.vectorized.execution.enabled=true;

set hive.vectorized.execution.reduce.enabled=true;

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

oo寻梦in记 你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。