Mapreduce过程的理解

本文章仅仅围绕上面的图解进行讲解,本文对网上的一些讲解进行一次汇总。希望可以帮到刚学习Hadoop的mapreduce的人。

对于一个mapreduce任务,可以有多个map和reduce。对于每个mapper,都会有对应的输入,如图中所示的input split(切片)。对于每个切片,要弄清楚这概念首先要明白hadoop的HDFS的原理,这里不过多个讲解,后面我会进行补充。从浅层的方面上,我们可以简单的理解成,我们要处理的文本数据经过inputFormat进行处理,默认情况下是 TextInputFormat,可以在配置启动中修改这一值,改变输入时的格式信息。

对于每个切片数据,都会经过map程序,对于这一脚本可以用多种语言进行编写,主要是用java或者python,不过喜欢C/C++的朋友,可以用自己喜欢的语言,至于如何使用具体请用检索系统进行搜索。我主要是用Python进行编写(公司主要是用python进行编写)。对于mapper的输出主要的格式要和reducer的输入的格式进行匹配。对于每个mapper处理完成后,都将数据信息写到缓存中,缓存满了,就会将数据写到硬盘里。对于这一缓存的空间大小可以进行设置,其中占满了多少回启动写到硬盘中,都有一个比例的设置。在中间这一shuffle过程中会经过排序等规则,排序默认情况下会使用key的hash映射进行排序,当然这个过程可以进行重写。每个combine可以的处理可以简单的理解为一个小型的reducer,这一块我不常用。主要是以前学习时上网搜索的。可以理解为达到局部数据的一个结果。就像归并排序一样,两个局部有序的部分进行归并时,时间复杂度O(m+n),算是一个线性的了。同样的道理,两个局部有序的部分,partition进行分配到reducer时,每个reducer处理的分段时局部有序,可以降低处理的时间。具体的情况具体分析。在reduce阶段,对于所分配而来的数据首先会进行merge。所得到的数据输入到reducer中进行处理。

reducer的处理结果也会有对应的缓存输出。对于处理的结果,最后可以通过outputFormat进行制定其中的输出格式。对于输出的位置一般是HDFS上。注意在HDFS上的文件是不能被修改的,所以当已有一个文件时,则启动程序是会失败的。

学习的不深入,若其中有纰漏的地方,望指正!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值