hive优化分享第一弹!

本文分享了五个Hive优化方法,包括运行时优化如Skew Join,编译时优化,Union优化,Map端预聚合及GROUP BY的2次MR优化,以解决数据倾斜问题,提升大数据处理效率。
摘要由CSDN通过智能技术生成

'你是做大数据的,应该很会优化吧(滑稽的笑)' -- 今天被朋友问了这个问题

简直是贴标签!

我只想说,,,方法实在太多了!!!

什么!!你还不会优化!!!

来!!我来分享一点我觉得有用的东西!

1.运行时优化

在表连接的时候,有些key值会很大,就会造成我们头疼的数据倾斜,但是开启下面的参数之后嘞,我们就可以临时把数据临时存储在hdfs~

set hive.optimize.skewjoin=true;

 原理:在某些情况下,当连接操作的键存在极端的数据分布不均衡(即倾斜)时,会导致性能下降。Hive 通过开启 hive.optimize.skewjoin 配置项来启用 Skew Join 优化,从而提高连接操作的效率。

hive.optimize.skewjoin 设置为 true 时,Hive 在执行连接操作时,会检测输入数据的倾斜情况,并尝试将倾斜的数据拆分成多个部分,再进行连接操作。这样可以避免倾斜数据集中在单个任务上,造成任务不均衡和性能瓶颈。

需要注意的是,开启 Skew Join 可能会增加作业的执行时间和资源消耗,因为它需要额外的计算和数据重组。因此,在使用该设置时,需要根据实际情况评估倾斜数据的程度和性能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值