Hadoop——MapJoin（减少数据倾斜）

最新推荐文章于 2024-05-03 11:01:05 发布

小董_不长肉

最新推荐文章于 2024-05-03 11:01:05 发布

阅读量276

点赞数 1

分类专栏： Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/d_l_w_d_l_w/article/details/120162895

版权

Hadoop 专栏收录该内容

15 篇文章 3 订阅

订阅专栏

首先，先说一下当前了解到的一个适用MapJoin的场景吧：

比如我们此时手中有两个表需要我们进行处理，但是呢一个很大，一个很小。那么这个时候我们比较适合使用MapJoin进行处理。

那么我们具体是怎么实现MapJoin的这个操作的呢？：

我们可以在map端对小的那个表先进行缓存，提前在map端将数据进行处理，那么这么做有什么好处呢，我们可以减少reduce端的压力、加快数据传输的速度、尽可能的减少reduce端出现数据倾斜

具体实现：
在map的setup阶段对小的文件进行缓存到：
当然在驱动类之中还需要加上job.addCacheFile(new URI(“file:///D:/Hadoop/11_input/tablecache/pd.txt”));
在这里插入图片描述
小表样例：

然后在map阶段将大表的文件进行读取，按照需求将大表中的数据和从HashMap中提取出的数据合并输出。

在这里插入图片描述

小董_不长肉

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop——MapJoin（减少数据倾斜）

首先，先说一下当前了解到的一个适用MapJoin的场景吧：比如我们此时手中有两个表需要我们进行处理，但是呢一个很大，一个很小。那么这个时候我们比较适合使用MapJoin进行处理。那么我们具体是怎么实现MapJoin的这个操作的呢？：我们可以在map端对小的那个表先进行缓存，提前在map端将数据进行处理，那么这么做有什么好处呢，我们可以减少reduce端的压力、加快数据传输的速度、尽可能的减少reduce端出现数据倾斜（暂时个人理解为：因为每个map端的大小是可以设置的默认是128M，在map端进
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。