mapreduce执行工作原理流程

君莫Junmo

于 2022-06-26 00:13:38 发布

阅读量225

点赞数 2

文章标签： mapreduce 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_39290372/article/details/125465709

版权

0.input 输入

InputFormat 类来处理数据选择

1.spilt 分片

将数据切分为 Key-Value (K1和V1)键值对，k1=文件的磁盘地址，value=每行的数据

2.map

由实现map方法来定义,自定义Map逻辑，将第一步的结果转换成另外的 Key-Value (K2和V2)键值对

3.shuffle(核心)

对上述输出的Key2-Value2
键值对进行分区，同时在这里打标识的操作，后面reducetask会根据这个标志来拉取指定的Key2-Value2键值对。分区如按照key长度来分，比如<5的个数分为一类。
对不同分区的数据按照相同的Key 排序，这里有是内存中排序，环形缓存默认100M，80%触发溢出，会直接落磁盘，然后merge文件。这里有的思想：就是当处理大量数据排序时，可以优先让一部分数据先保存落盘，然后进行归并排序来处理整体！
(非必要，可以配置选择)对分组过的数据初步规约，目的是降低数据的网络拷贝
对数据进行分组，相同 key的value
放入一个集合中，为了节约空间。然后等待reducetask来拉取
注意：先有分区后再有的分组，reducetask是根据分区来拿的。还有那个megre后的文件不一定代表数据一定有序的，最终有序会在reducetask中保证。

4.reduce

拉取所属相同分区的数据(前面的标识)到指定的reducetask中，结果进行排序以人及合并，然后执行实现reduce类的reduce方法进行处理，转为新的Key-Value(K3和V3）
输出设置 OutputFormat 处理并保存reduce 输出的 Key3-Value3 数据

5.ouput

指定输出

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

君莫Junmo CSDN认证博客专家 CSDN认证企业博客

码龄7年

5: 原创

140万+: 周排名

137万+: 总排名

1525: 访问

: 等级

66: 积分

1: 粉丝

6: 获赞

7: 评论

1: 收藏

私信

关注

热门文章

最新评论

对于jvm偏向锁的深度理解
CSDN-Ada助手: 恭喜您撰写了这篇名为“对于偏向锁的深度理解”的博客！很高兴看到您不断努力创作，并分享您对偏向锁的深刻理解。通过深入研究并撰写博客，您不仅对这一主题有了更深的理解，也为其他读者提供了有价值的知识。在评论中，我想谦虚地提出一些建议来帮助您进一步发展您的创作。首先，您可以考虑增加一些实例或案例来支持您的观点，这将使您的博客更加生动和易于理解。此外，您还可以尝试探索与偏向锁相关的其他主题，如其与并发编程的关系或其在具体编程语言中的实现方式等。这些扩展将使您的读者能够更全面地理解偏向锁的重要性和应用。再次恭喜您，并期待您未来更多精彩的博客！保持谦虚的态度，不断学习和分享，您一定会成为更加出色的博主！
微服务一站式rpc框架 dao-cloud
zhen_hong: 名可名，非常名
mysql-间隙锁高级理解
我的发型很酷1: ”因为插入不是触发幻读的因果“，insert在两个事务中也可以产生幻读呀，对吗
mysql-间隙锁高级理解
我的发型很酷1: 因为插入不是触发幻读的因果
mysql-间隙锁高级理解
我的发型很酷1: 因为插入不是触发幻读的因果

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。