Map Reduce论文理解

最新推荐文章于 2022-10-19 18:29:58 发布

super_dmz

最新推荐文章于 2022-10-19 18:29:58 发布

阅读量209

点赞数

分类专栏：分布式系统文章标签：分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/super_dmz/article/details/120182760

版权

本文深入解析MapReduce的执行流程，包括任务分发、调度、Map和Reduce任务的详细步骤，以及核心的容错机制。重点讨论了在worker故障、网络中断等情况下的任务重试和数据恢复策略，确保分布式计算的稳定性和可靠性。

摘要由CSDN通过智能技术生成

原文连接：http://nil.csail.mit.edu/6.824/2020/papers/mapreduce.pdf

相关背景介绍

Map Reduce本身是一种进行分布式计算的处理机制，在Google的实践中其与下一篇论文提到的负责分布式存储的GFS（google file system）通常一起使用。这二者共同结合延伸出了很多进一步的大数据框架，比如鼎鼎大名的Hadoop。

hadoop示意图

这里暂时忽略GFS的使用，专注于介绍Map Reduce的运行机制。值得注意的一点是，Map Reduce的关键并不是map和reduce函数怎么写，而是Master如何对任务进行分发调度，如果因为网络、节点崩溃等任务导致Master没有得到worker的任务完成反馈的话应该如何进行兜底补偿处理。

Map Reduce执行机制

这里原论文的图就进行了很好的展示

概括下来分为以下7步

1、输入的file大小不确定，可能很大也可能很小。如果很大的话将输入的文件分为M个64M大小的文件。这些文件就是Map任务读取的spli

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Map Reduce论文理解

原文连接：http://nil.csail.mit.edu/6.824/2020/papers/mapreduce.pdf
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。