mapreduce 工作流程

最新推荐文章于 2021-12-03 11:23:29 发布

IT圈最后的深情

最新推荐文章于 2021-12-03 11:23:29 发布

阅读量869

点赞数 1

文章标签： hadoop big data

本文链接：https://blog.csdn.net/qq_58309003/article/details/120147410

版权

MapReduce通过Input、Map、Sort、Combine、Partition、Reduce、Output等阶段处理数据。Input阶段将数据分片并行处理；Map阶段在数据存储节点执行映射操作；Sort阶段按键排序中间结果；Combine阶段对相同键的值进行合并；Partition阶段根据键值分配给Reduce任务；Reduce阶段对Map结果进行汇总计算；Output阶段将结果写入HDFS。开发者只需关注Map和Reduce函数的实现，其余分布式和并行问题由Hadoop MapReduce框架处理。

摘要由CSDN通过智能技术生成

MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。

MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段，具体的工作流程如图 1 所示。
Mapreduce工作流程
在 Input 阶段，框架根据数据的存储位置，把数据分成多个分片（Splk），在多个结点上并行处理。

Map 任务通常运行在数据存储的结点上，也就是说，框架是根据数据分片的位置来启动 Map 任务的，而不是把数据传输到 Map 任务的位置上。这样，计算和数据就在同一个结点上，从而不需要额外的数据传输开销。

在 Map 阶段，框架调用 Map 函数对输入的每一个 <key,value> 进行处理，也就是完成 Map<K1,V1>→List(<K2,V2>) 的映射操作。图 1 为找每个文件块中每个字母出现的次数，其中，K1 表示字母，V2 表示该字母出现的次数。

在 Sort 阶段，当 Map 任务结束以后，会生成许多 <K2,V2>形式的中间结果，框架会对这些中间结果按照键进行排序。图 1 就是按照字母顺序进行排序的。

在 Combine 阶段，框架对于在 Sort 阶段排序之后有相同键的中间结果进行合并。合并所使用的函数可以由用户进行定义。在图 1 中，就是把 K2 相同（也就是同一个字母）的 V2 值相加的。这样，在每一个 Map 任务的中间

最低0.47元/天解锁文章

IT圈最后的深情

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
mapreduce 工作流程

MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段，具体的工作流程如图 1 所示。在 Input 阶段，框架根据数据的存储位置，把数据分成多个分片（Splk），在多个结点上并行处理。Map 任务通常运行在数据存储的结点上，也就是说，框架是根据数据分片的位置来启动 Map 任务的，而不是把数据
复制链接

扫一扫