Map Reduce论文理解

本文深入解析MapReduce的执行流程,包括任务分发、调度、Map和Reduce任务的详细步骤,以及核心的容错机制。重点讨论了在worker故障、网络中断等情况下的任务重试和数据恢复策略,确保分布式计算的稳定性和可靠性。
摘要由CSDN通过智能技术生成

原文连接:http://nil.csail.mit.edu/6.824/2020/papers/mapreduce.pdf

相关背景介绍

Map Reduce本身是一种进行分布式计算的处理机制,在Google的实践中其与下一篇论文提到的负责分布式存储的GFS(google file system)通常一起使用。这二者共同结合延伸出了很多进一步的大数据框架,比如鼎鼎大名的Hadoop。

hadoop示意图

这里暂时忽略GFS的使用,专注于介绍Map Reduce的运行机制。值得注意的一点是,Map Reduce的关键并不是map和reduce函数怎么写,而是Master如何对任务进行分发调度,如果因为网络、节点崩溃等任务导致Master没有得到worker的任务完成反馈的话应该如何进行兜底补偿处理。

Map Reduce执行机制

这里原论文的图就进行了很好的展示

概括下来分为以下7步

1、输入的file大小不确定,可能很大也可能很小。如果很大的话将输入的文件分为M个64M大小的文件。 这些文件就是Map任务读取的spli

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值