hadoop学习之:Map、Reduce详解

Hadoop学习重点主要为HDFS、MapReduce 部分:

接下来重点描述一下MAP与Reduce 的过程。

看了好多资料,如果有错误的地方请大家指出。

MAP部分:

下图是官方给予的关于MapReduce的步骤,实际上图已经很好的说明了MapReduce的过程。



TaskTracker 接受到MAP任务,或者SPLIT,  一个SPLIT对应一个或者多个BLOCK。有多少个SPLIT就会有多少个MAP过程。

       MAP过程一共分为3步。

1、输入阶段。  MAP进程获取SPLIT分块

2、MAP过程。根据每一个<KEY,VALUE>对进行MAP过程。代码如下:  以下是MAP阶段多线程运行部分。  

也就是对每一个<KEY,VALUE>进行MAP 相应操作。

public void run(Context content) throws ..{
    ...
    while(context.nextKeyValue()){
         map(key,value,context)
    }
    ..
}
protected map(...){
         context.write((KEYOUT)key,(VALUEOUT)value);
}


 
3、Shuffle部分。结束MAP步骤输出MAP结果,结果是存储在内存中的。  但是当MAP结果数量过大时,内存空间不足,那么就会将结果SPILL,也就是压进磁盘中。在压进磁盘之前,会进行sort partition and combine(if has)。  压进磁盘过程中, MAP部分停止往内存输入数据直到SPILL结束。 

sort:  应该是根据KEY值进行 merge 排序

        partition:  将MAP输出的<key,value>进行 part.    不同的 partition 会分到不同的reduce机器进行处理。   hadoop默认的partition部分是根据key值的hash值分类,从而确保相同的key值分到同一个reudce钟

       combine:这是MAP的最后一步,就是对于MAP输出的一个预reduce

Reduce部分:

    

       通过上图来理解REDUCE部分。

     我将REDUCE分为以下几步:

      1、数据收集。   REDUCE端有一个进程间歇的向 Jobtrack发送请求,询问已经完成MAP的数据。  获得相应数据后,REDUCE端通过HTTP请求将结果COPY到本地

      2、数据整合。  REDUCE端从不同的机器上获得多个MAP结果,然后进行MERGE整合

      3、对每一个<key, Iist<value>> 进行一个REUDCE操作。  主要代码如下:

public void run(Context content) throws ..{
    ...
    while(context.nextKeyValue()){
         reduce(key,value,context)
    }
    ..
}
protected void reduce(...){
     for(VALUEIN value: values){
        contenxt.write(...)

}



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值