mapreduce中的join

本文介绍了MapReduce中三种常见的Join操作:Reduce端Join、Map端Join和Semi Join。详细解析了每种方法的核心思想、适用场景、优缺点,并通过实例展示了Reduce端Join的实现过程,帮助理解MapReduce中的数据连接技术。
摘要由CSDN通过智能技术生成

mapreduce常见的join:reduce端的join、map端的join、semi join??

【1】reduce端的join

核心思想:
在map端将来源不同的数据或者有不同用处的数据打标机输出,以便reduce端能

够识别并进行连接关系查找。

适合场景:所有的表都是大表时(几乎所有业务都满足)

优点:解决业务范围较广

缺点:从map端传到reduce端的数据量较大。且有很多的无效数据

大大的增加了传输时间,大大的增加了shuffle过程的耗时(数据多了,分区排序时间也就变长了)。

和连接关系的查询时间。

【2】map端的join:

核心思想:

将小标进行分布式缓存,然后在map端取出缓存的数据来进行连接查询

使用场景:大表和小表同时存在(至少有一个小表存在)

优点:从缓存中读取数据,然后在map端进行关联查找,从而减少map到reduce的数据传输

缺点:只适合有小表的业务需求

 

【3】reduce端的join案例

child parent
张三 王阿姨
张三 张大叔
张张 王阿姨
张张 张大叔
王阿姨 王奶奶
王阿姨 王大爷
张大叔 张奶奶
张大叔 张大爷

需求:
求出祖孙关系
child grantparent
张三 王奶奶
张三 王大爷
张三 张奶奶
张三 张大爷
张张 王奶奶
张张 王大爷
张张 张奶奶
张张 张大爷

所以mysql可以这样写:

select a.child,b.parent as grantparent
from a,b
where a.parent = b.child

 

这是一个表,是一整个文件

思路:一个人既有孩子,又有老人,则老人和孩子之间是孙辈关系

找出这个人有的孩子和老人做一个笛卡尔乘积,就得到通过这个人所有孩子的所有孙辈关系

首先从这个人的角度找他的孩子和父母

如何找?

这个人作为父母要有孩子,孩子用1标记    key:parent value:1-child

这个人作为孩子要有父母,父母用2标

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值