6.824: Distributed Systems是MIT的分布式系统课程,Lab1任务是通过build a MapReduce library学习Go语言和分布式环境下的容错技术(fault tolerance)
点击这里进入课程,由于仍处在分布式系统的学习阶段,有错误还望指出,Thx
首先看一个工程目录,只选取了Lab1会用到的main,mapreduce package:
下面简要介绍一下MapReduce的编程模型(Programming Model)
MapReduce起源于Google这篇闻名的Paper,用来简化大数据集的处理(Simplified Data Processing on Large Clusters),分为Map和Reduce两个过程:
Map:每个Map都产生一个key/value pairs set
Reduce:每个Reduce过程都将一些key/value pairs set中具有相同key的value做某种操作(对于Word Count,将value相加)
下面通过经典的 Word Count来说明MapReduce的设计方式:
Word Count 任务很简单,统计一份大文件(kjv12.txt)每个单词(Word)的频率(Count),kjv12.txt部分如下:
Map&Reduce工作流程图如下:
- Init:确定Map,Reduce Worker的个数,分别表示为nMap,nReduce,这里取nMap=3,nReduce=2
- Split:将原始文件kjv12.txt分割(Split)nMap个(等大的)文件,记为kjv12.txt_0, kjv12.txt_1,kjv12.txt_2
- DoMap i:Map Func接收kjv12 i作为输入,生成一个<word, count> list,并生成nReduce个输出文件,采用word%nReduce决定<word,count>输出到哪个文件
- DoReduce i:Reduce Func接收具有相同二级后缀的文件(kjv12.txt_*_i),并将相同word的count做加和,输出到kjv12.txt_res_i
- Merge:将kjv12.txt_res_*作简单合并,生成最终文件mrtmp.kjv12.txt
具体代码是这样的,全部代码在这里:
程序的正确性容易验证:
- 不遗漏(No Miss):这点是显而易见的
- 不重复(No Repeat):kjv12.txt_0,kjv12.txt_1都有"Google",那么都会输出到具有相同二级后缀的文件,即kjv12.txt_0/1_("Google"/nReduce)
最终输出到kjv12.txt_res_("Google"/nReduce),不会重复计算
Lab1 Part1只是帮助了解MapDeduce的编程模型,是单机-单线程运行
Lab1 Part2会通过单机-多线程协作(RPC&Go Channel)来模拟多节点分布式环境