hive的数据倾斜问题

1,数据倾斜的现象
多数task执行速度较快,少数task执行时间非常长,或者等待很长的时间后提示你内存不足,执行失败
2,为什么数据倾斜,以及解决方案
①数据本身的问题
1,null空值或者是一些没有意义的信息之类的(大多是这个原因)
2,无效数据,大量重复的测试数据或者是对结果数据影响不大的有效数据
3,有效数据,业务原因导致的正常数据分布,例如统计各省份的信息
解决办法:
1,2两种情况,直接对数据进行过滤
3:
Ⅰ,隔离执行,将异常的key过滤出来单独处理,最后和正常数据union
Ⅱ,给key先添加随机值,进行操作过后,去掉随机值,再进行一次操作
②SQL语句的调节
如何Join:
Ⅰ,驱动表选取join key分布最均匀
Ⅱ,做好filter操作
Ⅲ,count distinct 可以先group by 后再count
③ hive的参数设置
Ⅰ,hive.map.aggr=true 在map端聚合,相当于combiner
Ⅱ,hive.groupby.skewindata=true,生成的查询计划会有两个MR job,第一个MR job中,map输出结果集合会随机分布到reduce中。从而到达负载均衡的目的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值