Hive常用性能优化方法实践全面总结

最新推荐文章于 2024-05-01 22:20:02 发布

大数据学习与分享

最新推荐文章于 2024-05-01 22:20:02 发布

阅读量1k

点赞数

分类专栏： Hive 文章标签：大数据 hadoop hive hive调优

本文链接：https://blog.csdn.net/qq_42164977/article/details/112859281

版权

Apache Hive作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键。

Hive在执行任务时，通常会将Hive SQL转化为MapReduce job进行处理。因此对Hive的调优，除了对Hive语句本身的优化，也要考虑Hive配置项以及MapReduce相关的优化。从更底层思考如何优化性能，而不是仅仅局限于代码/SQL的层面。

Hive在读数据的时候，只读取查询中所需要用到的列，而忽略其它列。例如，若有以下查询：

SELECT age, name FROM people WHERE age > 30;

在实施此项查询中，people表有3列（age，name，address），Hive只读取查询逻辑中真正需要的两列age、name，而忽略列address；这样做节省了读取开销，中间表存储开销和数据整合开销。

同理，对于Hive分区表的查询，我们在写SQL时，通过指定实际需要的分区，可以减少不必要的分区数据扫描【当Hive表中列很多或者数据量很大时，如果直接使用select * 或者不指定分区，效率会很低下（全列扫描和全表扫描）】。

Hive中与列裁剪和分区裁剪优化相关的配置参数分别为：hive.optimize.cp和hive.optimize.pruner，默认都是true。

在关系型数据库如MySQL中，也有谓词下推（Predicate Pushdown，PPD）的概念。它就是将SQL语句中的where谓词逻辑都尽可能提前执行，减少下游处理的数据量。

如下Hive SQL语句：

select
    a.*,
    b.* 
from 
    a join b on (a.id = b.id)
where a.id > 15 and b.num > 16;

如果没有谓词下推，上述SQL需要在完成join处理之后才会执行where条件过滤。在这种情况下，参与join的数据可能会非常多，从而影响执行效率。
使用谓词下推，那么where条件会在join之前被处理，参与join的数据量减少，提升效率。

在Hive中，可以通过将参数hive.optimize.ppd设置为true，启用谓词下推。与它对应的逻辑优化器是PredicatePushDown。该优化器就是将OperatorTree中的FilterOperator向上提，见下图：
在这里插入图片描述

关于Hive join，参考文章：《Hive join优化》。

虽然Hive底层可以将Hive SQL转化为MapReduce执行，但有些情况不使用MapReduce处理效率跟高。比如对于如下SQL：

关注

专栏目录