hadoop 联合 join操作

hadoop join操作类似于sql中的功能,就是对多表进行取子集并合并一起。其中有很多工具已经可用,如pig,hive,cascading.

 

map端联接

 

 

reduce端联接

同样,就 是联接处理时在reduce端。那么有哪些步骤呢?(讨厌原书的翻译者把它译作几种方法!)

1.由于在reduce端处理,必须会考虑到多输入问题,即多表。于是MultiInputs必须的;

2.排序,分组。因为先排序,这样在处理时就可以为分组服务了,而分组是最終目标,即将相同key所附属的values连接起来。

 

由于书本上没有说明排序,搞得我以为按它说的直接使用secondary sort就可以了。这样是错误的。

 

 

see also

hadoop几种排序简介


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值