Hive调优学习笔记2

最新推荐文章于 2023-08-07 15:52:45 发布

小白學技術

最新推荐文章于 2023-08-07 15:52:45 发布

阅读量275

点赞数

分类专栏：大数据文章标签：数据库大数据 hive

本文链接：https://blog.csdn.net/qq_48077612/article/details/118737146

版权

本文档介绍了Hive的优化方法，包括列裁剪与分区裁剪减少数据读取，Map端Group By优化，启用Vectorization提升计算效率，利用多重模式避免重复扫描，用left semi join替换in/exists，CBO优化Join顺序，谓词下推减少处理数据，以及MapJoin和SMB Join的应用。通过这些技巧，可以显著提升Hive查询的性能。

摘要由CSDN通过智能技术生成

大数据学习之路，不定时修改和增加内容，欢迎指正

第3章 HQL语法优化

3.1 列裁剪与分区裁剪

列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。当列很多或者数据量很大时，如果select * 或者不指定分区，全列扫描和全表扫描效率都很低。
Hive在读数据的时候，可以只读取查询中所需要用到的列，而忽略其他的列。这样做可以节省读取开销：中间表存储开销和数据整合开销。

3.2 Group By

默认情况下，map阶段同一Key数据分发给一个Reduce，当一个Key数据过大时就倾斜了。
在这里插入图片描述
并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以现在Map端进行部分聚合，最后在Reduce端得出最终结果。
开启Map端聚合参数设置
（1）是否在Map端进行聚合，默认为True

set hive.map.aggr = true;

（2）在Map端进行聚合操作的条目数目

set hive.groupby.mapaggr.checkinterval = 100000;

（3）有数据倾斜的时候进行负载均衡（默认是false）

set hive.groupby.skewindata = true;

当选型设定为true，生成的查询计划会有两个MR Job。
第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的：
第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作（虽然能解决数据倾斜，但是不能让运行速度的更快）。

hive (default)> select deptno from emp group by deptno;
Stage-Stage-1: Map: 1 Reduce: 5 Cumulative CPU: 23.68 sec HDFS Read: 19987 HDFS Write: 9 SUCCESS
Total MapReduce CPU Time Spent: 23 seconds 680 msec
OK
deptno
10
20
30

优化以后

hive (default)> set hive.groupby.skewindata = true;
hive (default)> select deptno from emp group by deptno;
Stage-Stage-1: Map: 1 Reduce: 5 Cumulative CPU: 28.53 sec HDFS Read: 18209 HDFS Write: 534 SUCCESS
Stage-Stage-2: Map: 1 Reduce: 5 Cumulative CPU: 38.32 sec HDFS Read: 15014 HDFS Write: 9 SUCCESS
Total MapReduce CPU Time Spent: 1 minutes 6 seconds 850 msec
OK
deptno
10
20
30

3.3 Vectorization

vectorization：矢量计算的计算，在计算类似scan，filter、aggregation的时候，vectorization技术以设置批处理的增量大小为1024行单次来达到比单条记录单次获得更高的效率。
在这里插入图片描述
Vectorization官网链接

set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

最低0.47元/天解锁文章

小白學技術

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录