MapReduce的运行机制

二二得四

于 2021-08-30 14:19:27 发布

阅读量1.4k

点赞数

分类专栏： # Hadoop 文章标签： hadoop big data mapreduce

本文链接：https://blog.csdn.net/weixin_42573967/article/details/119985529

版权

MapReduce的运行包括Map端、Map和Reduce之间的数据传输、Reduce端以及Shuffle过程。Map端涉及输入数据的切片、读取、分区及排序；中间阶段通过Combiner减少数据传输量；Reduce端进行数据复制、排序、归并，调用reduce方法处理数据；Shuffle是核心，涵盖数据从Map端到Reduce端的传输和组织。

摘要由CSDN通过智能技术生成

    MapReduce作业是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个任务(task)来执行，其中包括两类任务：map任务和reduce任务。这些任务运行在集群的节点上，并通过YARN进行调度。如果一个任务失败，它将在另一个不同的节点上自动重新调度运行。
     MapReduce框架运转在<key,vlaue>键值对上。
    
整体流程

在这里插入图片描述

Map端

Map数据的输入和输出，默认读取数据的组件是TextInputFormat
在这里插入图片描述

1.输入数据（input）

2.切片（split），Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片(input split)。Hadoop为每一个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。
一个分片就是一个由单个map操作来处理的块，每个m

最低0.47元/天解锁文章

二二得四

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的运行机制

MapReduce作业是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个任务(task)来执行，其中包括两类任务：map任务和reduce任务。这些任务运行在集群的节点上，并通过YARN进行调度。如果一个任务失败，它将在另一个不同的节点上自动重新调度运行。Map端1.输入数据（input）2.切片（split），Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片(input split)。Hadoop为...
复制链接

扫一扫

专栏目录