MapReduce Join如何执行

join: 对两份数据进行关键词连接。如果数据量比较小,完全可以在内存中完成连接,如果数据量比较大,在内存中进行连接会发生内存溢出(OOM)。那么此时就可以用MapReduce来解决大数据连接

Reduce Join

map端主要工作:为来自不同表(文件)的key/value打标记以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标记作为value。然后进行输出。
reduce端主要工作:在reduce端,已连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源不同文件的记录(在map阶段已经打标记)分开,最后进行合并。
缺点
1)map阶段没有对数据瘦身,shuffle的网络传输和排序性能很低。
2)reduce端对两个集合做乘积计算,消耗内存,容易导致OOM.

Map Join

两份数据中,如果有一份数据比较小,小数据全部加载到内存,按关键 字建立索引。大数据文件作为map的输入文件,对map()方法的每一对的输入,都能够方便地和已加载到内存的小数据进行连接。把结果按key输出,经过shuffle阶段,reduce端得到的就是已经按key分组,并且已经连接好的数据。
缺点
1)要使用Hadoop中的DistributedCache(分布式缓存)把小数据分布到各个计算节点,每个map节点都要把小数据库加载到内存,按关键字建立索引。
2)数据中必须有一份数据比较小,在map端能够加载到内存,并进行join操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值