hadoop中对表的join功能的几个问题

最新推荐文章于 2023-02-13 20:05:40 发布

痛!太痛了!!!耶稣尔德,你为何!?

最新推荐文章于 2023-02-13 20:05:40 发布

阅读量1.5k

点赞数 1

分类专栏：大数据学习笔记文章标签： hadoop java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60358315/article/details/123978960

版权

大数据学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

join，将两张表通过某个共同的key整合起来。

这篇文章为已经学习过join功能的人准备，请看下边几个问题：

1，为什么在join时候需要获取文件的文件名来区分出数据究竟来源于哪个文件，有没有别的方式来对map获取的数据的所属进行区分。

hadoop默认使用FileInputFormat来读入磁盘数据，这个类的切片策略是按照设置的split size切片，同时对每个新文件不管上个文件最后一段数据是否打到split size ，都会重新开一个split。

对于小文件达不到128M基本就是一个文件一个split，所以我们可以简单的通过获得context中获得FileSplit对象，然后再通过他的方法获得split的对应的文件的name。

实际上，MapTesk以split作为单位，处理数据，如果有3个split 一个maptesk，三个split都会进入这个maptesk中的map方法，又因为上边的论述，不同split来着与不同文件，他们除了文件名这个便于区分彼此的特征，我们也能找到其他的特征，比如，不同文件数据长度等，不使用文件名我们依然可以在map阶段区分出来自不同文件的数据。

2，为什么要将reduce获取的数据先存入一个数据容器，在操作，是否可以通过某种方式，直接在reduce中匹配join的表1和表2并输出数据？

不能，想要在获取一行数据后直接连接两个表，你至少需要得到两个表中的其中一个的完整数据，这样才可以针对另一个表输入的每一行去进行外键查找匹配，但是reduce每次获得的数据都是两个表的各自一部分，所以我们需要自己把得到的数据整理完整。

另一个重要原因是，reduce的键值对的值，是一个迭代数据，我们一般1通过迭代器获得其中内容，而迭代器不允许直接

3，reduce的数据容器设置在reduce（）方法内还是方法外？

我们的数据容器很显然是只需要存着一次reduce方法的数据，所以放入reduce内部就可以了。

痛!太痛了!!!耶稣尔德,你为何!?

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop中对表的join功能的几个问题

学完了hadoop中mapreduce方法的join，来试试思考一下这几个问题，检验一下自己学习的成果。
复制链接

扫一扫

专栏目录

痛!太痛了!!!耶稣尔德,你为何!? CSDN认证博客专家 CSDN认证企业博客

码龄3年

14: 原创

77万+: 周排名

89万+: 总排名

1万+: 访问

: 等级

165: 积分

5: 粉丝

18: 获赞

1: 评论

16: 收藏

私信

关注

热门文章

分类专栏

JVM
大数据学习笔记 2篇

最新评论

解决Mathmatica中编写的程序包无法导入的问题
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你解决Mathmatica中编写的程序包无法导入的问题，我感到非常欣慰。你的经验分享对于像我这样的读者来说非常有帮助。在我看来，你已经成为一个专业的Mathematica用户，并且能够通过博客分享你的知识。接下来，我建议你可以继续深入探索Mathematica的其他功能和应用场景。也许你可以分享一些高级技巧或者解决复杂问题的方法。我期待着你的下一篇博客，希望你能继续保持创作的热情！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。