Hadoop中两表JOIN的处理方法

最新推荐文章于 2024-04-14 14:23:26 发布

stevewongbuaa

最新推荐文章于 2024-04-14 14:23:26 发布

阅读量2.9k

点赞数

分类专栏：数据库 hadoop 文章标签： hadoop 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/waltonhuang/article/details/52192141

版权

数据库同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

参考

Hadoop中两表JOIN的处理方法

小结

1，reduce side join

在reduce阶段join。

map阶段标记数据来自哪个文件，比如来自file1标记tag=1，来自file2标记tag=2。

reduce阶段把key相同的file1的数据和file2的数据通过笛卡尔乘积join在一起。

个人理解：举个例子
file1 有{1:'a', 2:'b', 3:'c'}
file2 有{1:'A', 2:'B'}

可以join成{1:['a','A'], 2:['b', 'B']}

2，map side join

在map阶段join。

适用于情况：两个待连接表中，有一个表非常大，而另一个表非常小。以至于小的表可以放进去内存中。

那么就把小表在每个map task中复制一份，然后只扫描大表，对大表中的每一条记录，看看key是否存在于小表中，将匹配的key的数据join起来输出。

3，semijoin半连接

这个是要改进reduce side join。建立一个小表file3，把file1的所有要参加join的数据的key复制进去，然后把file3复制到每一个map task中去，然后找出不在file2中的key，过滤掉这些数据后再进行reduce side join，减少跨机器数据传输。

个人理解：举个例子
file1 有{1:'a', 2:'b', 3:'c'}
file2 有{1:'A', 2:'B'}

建立一个小表file3，所有要参加join的数据的key复制进去也就是
[1, 2, 3]，然后发现file2中没有key=3的，所以可以过滤掉key=3的数据后再进行reduce join，来减少跨机器数据传输。

4，加入bloom filter

继续改进3。引入bloom filter。这种数据结构的特点是，存在false positive。如果使用它判断一个元素在集合中(positive)，那其实有可能不在（false）。但是如果使用它判断一个元素不在集合中，那这个元素就真的不在这个集合中了。（没有false negative）

利用这个特点可以怎么改进3呢？在3中的file3我们可以用bloom filter来实现，要判断file2的key是否存在于file3中的时候直接使用bloom filter来判断。这样，如果判断说file2的某个key存在于file3中(positive)，但是实际不在(false)，那也无所谓，只是少过滤了一些key而已，还是可以正确地join。但是bloom filter可以保证没有false negative，如果判断file2的某个key不在file3中，那就真的不在file3中，这样可以保证join的正确性（不会少join了一些数据）。

5，二次排序

参考
http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中两表JOIN的处理方法

参考Hadoop中两表JOIN的处理方法小结1，reduce side join在reduce阶段join。map阶段标记数据来自哪个文件，比如来自file1标记tag=1，来自file2标记tag=2。reduce阶段把key相同的file1的数据和file2的数据通过笛卡尔乘积join在一起。个人理解：举个例子 file1 有{1:'a', 2:'b', 3:'c'} file2 有{1:'
复制链接

扫一扫

专栏目录

stevewongbuaa CSDN认证博客专家 CSDN认证企业博客

码龄13年

205: 原创

3万+: 周排名

8万+: 总排名

40万+: 访问

: 等级

5716: 积分

73: 粉丝

195: 获赞

43: 评论

332: 收藏

私信

关注

热门文章

分类专栏

最新评论

SchedulerLock 分布式锁原理
ggcjdsslhtbjw: 如果发现lock_util小于等于当前时间（锁已经无效），就可以去update；多个机器同时update，只有一个机器可以update成功(修改行数>0)，实现了锁的抢占。 ============= 如果服务器之间时间相差很大这种锁是不是就有问题了
[译]MQTT 通配符
serene94: 推荐一款优秀的MQTT GUI客户端，可视化管理软件：MQTT Assistant，官网地址：http://www.redisant.cn/mqtt
搜索引擎：Frame of Reference 和 Roaring Bitmaps
不知名小佬: 拉链是什么东西
Mysql MVCC 原理 low_limit_id ReadView
东南吴彦祖: 可以可以，以前理解了没有加深记忆。今天想起来就看到这个文章，一下子就回忆起来了
SchedulerLock 分布式锁原理
混分巨兽石头人: 赞奥

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。