hadoop实现join的几种方法及每种方法的实现

最新推荐文章于 2023-08-29 14:45:29 发布

多么哇塞的陈哇塞

最新推荐文章于 2023-08-29 14:45:29 发布

阅读量395

点赞数

分类专栏： hadoop 文章标签： hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57498038/article/details/116033963

版权

hadoop 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

hadoop实现join的几种方法及每种方法的实现

1）reduce side join

Map端的主要工作：为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。

Reduce端的主要工作：在reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开，最后进行合并就ok了。

2）map join

在map端缓存多张表，提前处理业务逻辑，这样增加map端业务，减少reduce端数据的压力，尽可能的减少数据倾斜。

具体办法：采用distributedcache

（1）在mapper的setup阶段，将文件读取到缓存集合中。

（2）在驱动函数中加载缓存。

job.addCacheFile(new URI("file:/e:/mapjoincache/pd.txt"));// 缓存普通文件到task运行节点

多么哇塞的陈哇塞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop实现join的几种方法及每种方法的实现

hadoop实现join的几种方法及每种方法的实现1）reduce side join Map端的主要工作：为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。 Reduce端的主要工作：在reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开，最后进行合并就ok了。 2）map join 在ma...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。