MapJoin和ReduceJoin区别及优化

最新推荐文章于 2024-05-18 15:40:42 发布

谦蓦

最新推荐文章于 2024-05-18 15:40:42 发布

阅读量1.1w

点赞数 5

分类专栏： -- 数据专题-数据工具文章标签： Join MapJoin ReduceJoin

本文链接：https://blog.csdn.net/qq_17776287/article/details/78567514

版权

20 篇文章 0 订阅

订阅专栏

思想：

小表复制到各个节点上，并加载到内存中；大表分片，与小表完成连接操作。

两份数据中，如果有一份数据比较小，小数据全部加载到内存，按关键字建立索引。大数据文件作为map的输入，对map()函数每一对输入，都能够方便的和已加载到内存的小数据进行连接。把连接结果按key输出，经过shuffle阶段，reduce端得到的就是已经按key分组的，并且连接好了的数据。

这种方法，要使用Hadoop中的DistributedCache把小数据分布到各个计算节点，每个map节点都要把小数据加载到内存，按关键字建立索引。

这里写图片描述

思想：

map端按照连接字段进行hash，reduce端完成连接操作

在map阶段，把关键字作为key输出，并在value中标记出数据是来自data1还是data2。因为在shuffle阶段已经自然按key分组，reduce阶段，判断每一个value是来自data1还是data2，在内部分成两组，做集合的成绩。

这里写图片描述

这种方法有2个问题：
- map阶段没有对数据瘦身，shuffle的网络传输和排序性能很低。
- reduce端对2个集合做乘积计算，很耗内存，容易导致OOM。

使用内存服务器，扩大节点的内存空间
针对map join，可以报一份数据放到专门的内存服务器，在map()方法中，对每一个的输入对，根据key到内存服务器中取出数据，进行连接。
使用BloomFilter过滤空连接的数据
对其中一份数据在内存中建立BloomFilter，另外一份数据在连接之前，用BloomFilter判断它的key是否存在，如果不存在，那这个记录是空连接，可以忽略。
使用map reduce专为join设计的包
在map reduce包看到有专门为join设计的包，对这些包还没有学习，不知道怎么使用，只是在这里记录下来，做个提醒。

jar: mapreduce-client-core.jar

package: org.apache.hadoop.mapreduce.lib.join

关注