MapReduce解决数据倾斜

最新推荐文章于 2023-06-26 05:30:00 发布

谁主沉浮---data

最新推荐文章于 2023-06-26 05:30:00 发布

阅读量475

点赞数

分类专栏：数据倾斜 MapReduce 文章标签： MapReduce 数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DATA8866/article/details/80168277

版权

MapReduce 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

可以从一下三个方面入手：

一、业务逻辑方面

1、map端的key值进行hash的时候，可能得到的hash值相同，然而相同的hash值会分配给同一个reduce函数去处理，因此就会出现某一个reduce的工作量非常大，进而导致数据倾斜。因此解决数据倾斜可以优化定义你的hash函数。

2、还有就是，例如你对一部分数据进行了处理，这样将导致这部分数据与其他未处理数据不同，所以这些数据有可能出现在map端聚集，因此，可以在map任务在运行前，将处理过的数据与未处理的数据分开进行map任务。

二、程序方面

调整设计程序的思路。

三、调参方面

Hadoop自带了很多的参数和机制来调节数据倾斜，合理利用它们可以解决部分数据倾斜的问题。

四、数据处理方面

1、进行数据预处理。

2、有损方法：将异常数据过滤掉，比如说IP为0的数据删除。

3、无损的方法：对分布不均衡的数据单独计算，先对key做一次hash，将数据打散再并行运算。

谁主沉浮---data

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce解决数据倾斜

可以从一下三个方面入手：一、业务逻辑方面例如你对一部分数据进行了处理，这样将导致这部分数据与其他未处理数据不同，所以这些数据有可能出现在map端聚集，因此，可以在map任务在运行前，将处理过的数据与未处理的数据分开进行map任务。二、程序方面调整设计程序的思路。三、调参方面Hadoop自带了很多的参数和机制来调节数据倾斜，合理利用它们可以解决部分数据倾斜的问题。四、数据处理方面1、进行数据预处理。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。