MapReduce详细运行流程

最新推荐文章于 2024-07-17 11:55:28 发布

Mclaren丶

最新推荐文章于 2024-07-17 11:55:28 发布

阅读量1k

点赞数

分类专栏：回顾总结

本文链接：https://blog.csdn.net/weixin_43066313/article/details/89078907

版权

MapReduce是一种用于大数据并行处理的计算模型。其运行流程包括Map阶段（split、map、partition、sort、combine）、shuffle阶段（collect、sort、spill、merge）以及Reduce阶段（merge、sort、reduce输出）。Map阶段中，数据被切分、映射、分区和归约；shuffle阶段涉及数据在网络和磁盘间的排序与合并；Reduce阶段整合并排序Map的输出，最终写出结果。

摘要由CSDN通过智能技术生成

个人学习过程中总结，如有不同见解望交流。

MapReduce 是一种编程模型，是面向大数据并行处理的计算模型、框架和平台。它的编程思想是将数据处理流程分为Map离散和Reduce归约两个部分，基于已封装的框架API编程，并以多个节点分布式并行处理，具有很高的性能和编程简化度，且支持跨语言编程。

MapReduce运行流程：

1、Map阶段：
（1）split阶段：任务开始运行后，对读取文件进行切片（split），一般文件分为几个blook块就split成几个切片（若block块的大小介于split设置的最大最小值之间则为一对一，否则按split设置值来切片），一般每个切片对应一个map task即一个map任务。map task分完后，再对传进来的数据进行切分，把一行切分为一个<k,v>结构。
如<0,hello you> <10,hello me>
之后接收产生的<k,v>进行处理，转换为新的<k,v>输出。（每一行即一个<k,v>调用一次map函数）
如：<hello,1> <you,1> <hello,1> <me,1>
（2）patition阶段：对输出的<k,v>进行分区，一般一个区对应一个reduce输出文件。（可自定义分区方法）
（3）sort阶段：对不同分区中的数据进行排序（按照k，也可自定义）、分组。分组指的是相同key的value放到一个集合中。　排序后：<hell