数据倾斜原因及其解决方案

最新推荐文章于 2023-11-26 21:37:16 发布

Daisy和她的单程车票

最新推荐文章于 2023-11-26 21:37:16 发布

阅读量1.4k

点赞数

分类专栏： spark 文章标签： hadoop spark mapreduce

本文链接：https://blog.csdn.net/u012513618/article/details/105113568

版权

1、数据倾斜的概念

数据倾斜是在map/reduce执行程序时，reduce大部分节点执行完毕，但有一个或者少数几个节点执行很慢，导致其他程序一直处于等待的状态，使得整个程序执行时间较长。

2、为什么出现数据倾斜？

主要是在shuffle过程中，由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。
表现如下：
1、大部分的task执行完毕，少数几个甚至一个task可以执行但执行很慢
2、大部分的task执行很快，但有的task突然爆oom，重复几次
都是报这个错，作业无法执行

3 数据倾斜的几种处理方式

最直接的处理方式当然是增加reduce的个数啦

3.1 join操作产生的数据倾斜

3.1.1 小表关联大表

使用map join 解决 （前提要求是内存足以装下该全量数据）
map join概念：将做连接的小表（把重复关联键少的表（写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理。））分发到所有 MapTask 端进行 Join，从而避免了 reduceTask
将其中做连接的小表（全量数据）分发到所有 MapTask 端进行 Join，从而避免了 reduceTask，前提是内存足以装下该全量数据

set hive.auto.convert.join=true;
-- //设置 MapJoin 优化自动开启
set hive.mapjoin.smalltable.filesize=25000000
--  (默认值25M)//设置小表不超过多大时开启 mapjoin 优化

最低0.47元/天解锁文章

Daisy和她的单程车票

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜原因及其解决方案

1、数据倾斜的概念数据倾斜是在map/reduce执行程序时，reduce大部分节点执行完毕，但有一个或者少数几个节点执行很慢，导致其他程序一直处于等待的状态，使得整个程序执行时间较长。2、为什么出现数据倾斜？主要是在shuffle过程中，由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。表现如下：1、大部分的task执行完毕，少数几个甚至一个task可以执行但...
复制链接

扫一扫

专栏目录