1、数据倾斜的概念
数据倾斜是在map/reduce执行程序时,reduce大部分节点执行完毕,但有一个或者少数几个节点执行很慢,导致其他程序一直处于等待的状态,使得整个程序执行时间较长。
2、为什么出现数据倾斜?
主要是在shuffle过程中,由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。
表现如下:
1、大部分的task执行完毕,少数几个甚至一个task可以执行但执行很慢
2、大部分的task执行很快,但有的task突然爆oom,重复几次
都是报这个错,作业无法执行
3 数据倾斜的几种处理方式
最直接的处理方式当然是增加reduce的个数啦
3.1 join操作产生的数据倾斜
3.1.1 小表关联大表
使用map join 解决 (前提要求是内存足以装下该全量数据)
map join概念:将做连接的小表(把重复关联键少的表 (写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理。))分发到所有 MapTask 端进行 Join,从 而避免了 reduceTask
将其中做连接的小表(全量数据)分发到所有 MapTask 端进行 Join,从 而避免了 reduceTask,前提是内存足以装下该全量数据
set hive.auto.convert.join=true;
-- //设置 MapJoin 优化自动开启
set hive.mapjoin.smalltable.filesize=25000000
-- (默认值25M)//设置小表不超过多大时开启 mapjoin 优化