数据倾斜原因及其解决方案

1、数据倾斜的概念

数据倾斜是在map/reduce执行程序时,reduce大部分节点执行完毕,但有一个或者少数几个节点执行很慢,导致其他程序一直处于等待的状态,使得整个程序执行时间较长。

2、为什么出现数据倾斜?

主要是在shuffle过程中,由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。
表现如下
1、大部分的task执行完毕,少数几个甚至一个task可以执行但执行很慢
2、大部分的task执行很快,但有的task突然爆oom,重复几次
都是报这个错,作业无法执行

3 数据倾斜的几种处理方式

最直接的处理方式当然是增加reduce的个数啦

3.1 join操作产生的数据倾斜

3.1.1 小表关联大表

使用map join 解决 (前提要求是内存足以装下该全量数据)
map join概念:将做连接的小表(把重复关联键少的表 (写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理。))分发到所有 MapTask 端进行 Join,从 而避免了 reduceTask
将其中做连接的小表(全量数据)分发到所有 MapTask 端进行 Join,从 而避免了 reduceTask,前提是内存足以装下该全量数据

set hive.auto.convert.join=true;
-- //设置 MapJoin 优化自动开启
set hive.mapjoin.smalltable.filesize=25000000
--  (默认值25M)//设置小表不超过多大时开启 mapjoin 优化
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值