[MIT 6.824: Distributed Systems] Lab1 Part1

   6.824: Distributed Systems是MIT的分布式系统课程,Lab1任务是通过build a MapReduce library学习Go语言和分布式环境下的容错技术(fault tolerance)

  点击这里进入课程,由于仍处在分布式系统的学习阶段,有错误还望指出,Thx

  首先看一个工程目录,只选取了Lab1会用到的main,mapreduce package:

        

  下面简要介绍一下MapReduce的编程模型(Programming Model)

  MapReduce起源于Google这篇闻名的Paper,用来简化大数据集的处理(Simplified Data Processing on Large Clusters),分为Map和Reduce两个过程:

  Map:每个Map都产生一个key/value pairs set

  Reduce:每个Reduce过程都将一些key/value pairs set中具有相同key的value做某种操作(对于Word Count,将value相加)

    下面通过经典的 Word Count来说明MapReduce的设计方式:

  Word Count 任务很简单,统计一份大文件(kjv12.txt)每个单词(Word)的频率(Count),kjv12.txt部分如下:

  

  Map&Reduce工作流程图如下:

  

  1. Init:确定Map,Reduce Worker的个数,分别表示为nMap,nReduce,这里取nMap=3,nReduce=2
  2. Split:将原始文件kjv12.txt分割(Split)nMap个(等大的)文件,记为kjv12.txt_0, kjv12.txt_1,kjv12.txt_2
  3. DoMap i:Map Func接收kjv12 i作为输入,生成一个<word, count> list,并生成nReduce个输出文件,采用word%nReduce决定<word,count>输出到哪个文件
  4. DoReduce i:Reduce Func接收具有相同二级后缀的文件(kjv12.txt_*_i),并将相同word的count做加和,输出到kjv12.txt_res_i
  5. Merge:将kjv12.txt_res_*作简单合并,生成最终文件mrtmp.kjv12.txt

  具体代码是这样的,全部代码在这里

  

  

  程序的正确性容易验证:

  1. 不遗漏(No Miss):这点是显而易见的
  2. 不重复(No Repeat):kjv12.txt_0,kjv12.txt_1都有"Google",那么都会输出到具有相同二级后缀的文件,即kjv12.txt_0/1_("Google"/nReduce)

                 最终输出到kjv12.txt_res_("Google"/nReduce),不会重复计算

  Lab1 Part1只是帮助了解MapDeduce的编程模型,是单机-单线程运行

  Lab1 Part2会通过单机-多线程协作(RPC&Go Channel)来模拟多节点分布式环境

 

转载于:https://www.cnblogs.com/zjuwh/p/5001658.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MIT 6.824 是麻省理工学院的一门高级课程,全称为 "Distributed Systems"(分布式系统),它通常会在计算机科学和工程领域中教授。这门课程深入探讨了分布式计算环境中的核心概念和技术,包括: 1. **分布式计算模型**:学习如何设计和实现分布式系统,如客户端-服务器、对等网络、云计算等架构。 2. **通信协议**:理解像TCP/IP、HTTP、UDP等基础通信协议在分布式系统中的作用以及它们如何确保数据的可靠传输。 3. **一致性模型**:研究不同的一致性级别,如强一致性、最终一致性,以及如何在分布式环境中维护数据一致性。 4. **分布式算法**:涉及分布式任务调度、数据分片、共识算法(如 Paxos、 raft 等)等,这些算法对于分布式系统的高效运作至关重要。 5. **安全性与隐私**:讨论如何保护分布式系统免受恶意攻击,如身份验证、授权、加密等安全措施。 6. **容错与可靠性**:处理节点故障的恢复策略,以及冗余和备份技术的重要性。 7. **大规模分布式系统案例**:可能涵盖云计算平台的设计、大规模数据库系统、分布式文件系统(如Hadoop)或分布式计算框架(如Spark)。 如果你想深入了解这门课程,可以考虑查找相关的课程资料、观看讲座视频,或者阅读经典的分布式系统教材,如《分布式系统:概念与设计》( Distributed Systems: Concepts and Design)。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值