数据仓库-Hive调优和数据倾斜

最新推荐文章于 2022-07-19 10:32:57 发布

James。。。。

最新推荐文章于 2022-07-19 10:32:57 发布

阅读量222

点赞数 1

分类专栏：数据仓库文章标签：数据仓库

本文链接：https://blog.csdn.net/hsl971105/article/details/108170457

版权

13 篇文章 4 订阅

订阅专栏

一、Hive调优：

影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等

大的方向分存储优化和计算优化。

存储优化：

计算优化：

分区裁剪、列裁剪、谓词下推(where谓词逻辑都尽可能提前执行，减少下游处理的数据量)
在UNION ALL内部尽可能不使用GROUP BY，改为在外层统一GROUP BY
尽量避免使用DISTINCT关键字，改为多套一层GROUP BY 即先进行group by 再进行count 替换count(distinct)。但是这样写会启动两个MR job（单纯distinct只会启动一个），所以要确保数据量大到启动job的overhead远小于计算耗时，才考虑这种方法。
减少FULL OUTER JOIN 的使用，改为UNION ALL
尽量少用 udf 和 transform脚本(这东西不好维护，能用sql实现就用sql)
开启combiner,map端预聚合 set hive.map.aggr，默认值true
合并小文件小文件一多，会对NameNode的压力激增

数据倾斜：一大批数据分发到了一个reduce上,走到99% 不动了，形成性能瓶颈

形成原因：

我们知道，join是数据倾斜的重灾区，常见的数据倾斜情况：

关注