大数据-MapRuduce

MapReduce是一种分布式编程框架,用于大规模数据集的并行运算。(可以说是一种编程方法,理论,思想,一种“分而治之”的策略)

下面用一种较为通俗的例子来引入这么一个概念及解释MapReduce的过程:

首先,我们有相当多的文本文档(可能有几千亿几万亿,反正很多),我们需要编程来统计词频,我们的一般方法是,写一个程序,把所有文件遍历一遍,可是,这也许需要花费相当长的时间。

那么,有没有更好的方法呢?

有,我们如果拥有一台多核或多处理器的计算机,我们可以利用多线程编程的方式,虽然编程难度会增加,可不失为一种更高效的方法。

那么,还有没有更好的方法呢?

是的,我们如果拥有很多计算机,可以把这么多文件分成N份,放到N台计算机上,分别执行统计的任务。但这样的部署同样也是一种巨大的工作量了。

那么,一定还有更好的方法吧?

当然,这里就引出了MapReduce,MapReduce实质上就是定义了上述分布式部署执行任务的方法。

一个作业(job)通常会被分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。(其实就是拆分任务并行处理,然后合并的过程)

因此,MapReduce主要可以概括为map阶段和reduce阶段。

(国际惯例,上个图)

MapReduce的大致执行流程:

1,client

用户编写MapReduce程序通过client提交到jobtracker端,也可通过client提供的一些借口查看运行的运行状态

2,jobtracker

jobtracker负责资源监控和作业调度

3,tasktracker

tasktracker会周期性地将本届点上资源地情况和任务情况汇报给jobtracker

下面将更加详细地深入到每个节点,看一看MapReduce的执行过程。

MapReduce的一般执行流程:

途中描绘了MapReduce的整个过程,下面进行一个详细的描述:

1,inputformat从job中得到一个split集合(RR为recodreader,负责读取inputsplit,生成键值对供mapper使用)

2,map接收键值对(key-value pair),产生一组中间结果的键值对。
(在统计词频的例子里,map函数接受的键是文件名,值是文件的内容,map逐个遍历单词,每遇到一个单词w,就产生一个中间键值对<w, "1">,这表示单词w咱又找到了一个;)

3,shuffle对map的输出结果进行分区(partition),排序(sort),溢写(spill),合并(combine),归并(merge)等操作,并将结果传给reduce的过程。

4,reduce对传过来的键值对进行合并,产生最终结果。

(在统计词频的例子里,map传过来很多w单词的键值对,reduce对这个结果进行累加就是w单词的个数)

5,outputformat则接收最终结果,写入到HDFS中去。

那么,其中shuffle则是MapReduce中一个核心过程。(shuffle有洗牌的意思,其实是非常形象的)

对shuffle过程的期望则是:1,从map获得的保证数据完整性;2,减少在获取不同节点的数据时的带宽消耗;3,尽量利用内存而非硬盘,不让硬盘IO影响执行速度。

shuffle的详细过程是怎样的呢?

先看一个官方图解:

可见,shuffle贯穿与map和reduce过程。因此,shuffle过程的解释也应该分为map阶段和reduce阶段。

1,map阶段的shuffle

map任务结束后,根据分区(partition)决定该交由哪个reduce任务来进行后面的处理。然后将分区的结果<key,value,partition>序列化成字节组,写入缓冲区(缓冲区默认大小100M)。达到阈值后(80%)开始进行溢写(spill),将数据写到磁盘。在写入磁盘之前会进行一个快速排序:先根据partition排序,然后再对partition中key进行排序。通过merge将多个溢写文件合并到一个文件,则输出文件包括一个索引文件和数据文件(如果设定了combiner,则会在排序输出的基础上进行一个简单的reduce操作,使map输出更紧凑)

2,reduce阶段的shuffle

首先,将map阶段产生的输出文件根据partition,copy到reduce端。然后进行归并排序(merge),将copy的数据进行合并(一样会有spill和combine)。最后生成一个较大的文件作为reduce的输入。

总结起来,map阶段的shuffle可以总结为,分区,排序,溢写,合并。reduce阶段可以总结为复制,合并。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值