MapReduce Join如何执行

最新推荐文章于 2023-10-22 14:26:23 发布

木良Duncan

最新推荐文章于 2023-10-22 14:26:23 发布

阅读量163

点赞数

文章标签： mapreduce hadoop 大数据

本文链接：https://blog.csdn.net/qq_45275284/article/details/129723847

版权

join: 对两份数据进行关键词连接。如果数据量比较小，完全可以在内存中完成连接，如果数据量比较大，在内存中进行连接会发生内存溢出（OOM）。那么此时就可以用MapReduce来解决大数据连接

Reduce Join

map端主要工作：为来自不同表（文件）的key/value打标记以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标记作为value。然后进行输出。
reduce端主要工作：在reduce端，已连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源不同文件的记录（在map阶段已经打标记）分开，最后进行合并。
缺点：
1）map阶段没有对数据瘦身，shuffle的网络传输和排序性能很低。
2）reduce端对两个集合做乘积计算，消耗内存，容易导致OOM.

Map Join

两份数据中，如果有一份数据比较小，小数据全部加载到内存，按关键字建立索引。大数据文件作为map的输入文件，对map()方法的每一对的输入，都能够方便地和已加载到内存的小数据进行连接。把结果按key输出，经过shuffle阶段，reduce端得到的就是已经按key分组，并且已经连接好的数据。
缺点：
1）要使用Hadoop中的DistributedCache(分布式缓存)把小数据分布到各个计算节点，每个map节点都要把小数据库加载到内存，按关键字建立索引。
2）数据中必须有一份数据比较小，在map端能够加载到内存，并进行join操作。