hadoop学习之：Map、Reduce详解

最新推荐文章于 2022-05-31 13:19:02 发布

凉拌灰土

最新推荐文章于 2022-05-31 13:19:02 发布

阅读量747

点赞数 1

分类专栏：大数据文章标签： hadoop mapreduce 大数据 Big data 云计算

本文链接：https://blog.csdn.net/cnh294141800/article/details/52846213

版权

大数据专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Hadoop学习重点主要为HDFS、MapReduce 部分：

接下来重点描述一下MAP与Reduce 的过程。

看了好多资料，如果有错误的地方请大家指出。

MAP部分：

下图是官方给予的关于MapReduce的步骤，实际上图已经很好的说明了MapReduce的过程。

TaskTracker 接受到MAP任务，或者SPLIT，一个SPLIT对应一个或者多个BLOCK。有多少个SPLIT就会有多少个MAP过程。

MAP过程一共分为3步。

1、输入阶段。 MAP进程获取SPLIT分块

2、MAP过程。根据每一个<KEY,VALUE>对进行MAP过程。代码如下：以下是MAP阶段多线程运行部分。

也就是对每一个<KEY,VALUE>进行MAP 相应操作。

public void run(Context content) throws ..{
    ...
    while(context.nextKeyValue()){
         map(key,value,context)
    }
    ..
}

protected map(...){
         context.write((KEYOUT)key,(VALUEOUT)value);
}

3、Shuffle部分。结束MAP步骤输出MAP结果，结果是存储在内存中的。但是当MAP结果数量过大时，内存空间不足，那么就会将结果SPILL，也就是压进磁盘中。在压进磁盘之前，会进行sort partition and combine(if has)。压进磁盘过程中， MAP部分停止往内存输入数据直到SPILL结束。

sort: 应该是根据KEY值进行 merge 排序

partition: 将MAP输出的<key,value>进行 part. 不同的 partition 会分到不同的reduce机器进行处理。 hadoop默认的partition部分是根据key值的hash值分类，从而确保相同的key值分到同一个reudce钟

combine:这是MAP的最后一步，就是对于MAP输出的一个预reduce

Reduce部分：

通过上图来理解REDUCE部分。

我将REDUCE分为以下几步：

1、数据收集。 REDUCE端有一个进程间歇的向 Jobtrack发送请求，询问已经完成MAP的数据。获得相应数据后，REDUCE端通过HTTP请求将结果COPY到本地

2、数据整合。 REDUCE端从不同的机器上获得多个MAP结果，然后进行MERGE整合

3、对每一个<key, Iist<value>> 进行一个REUDCE操作。主要代码如下：

public void run(Context content) throws ..{
    ...
    while(context.nextKeyValue()){
         reduce(key,value,context)
    }
    ..
}

protected void reduce(...){
     for(VALUEIN value: values){
        contenxt.write(...)

}

凉拌灰土

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习之：Map、Reduce详解

Hadoop学习重点主要为HDFS、MapReduce 部分：接下来重点描述一下MAP与Reduce 的过程。看了好多资料，如果有错误的地方请大家指出。MAP部分：下图是官方给予的关于MapReduce的步骤，实际上图已经很好的说明了MapReduce的过程。TaskTracker 接受到MAP任务，或者SPLIT，一个SPLIT对应一个或者多个BLOCK。
复制链接

扫一扫

专栏目录