MapReduce

最新推荐文章于 2021-05-11 17:43:03 发布

first_wolf

最新推荐文章于 2021-05-11 17:43:03 发布

阅读量879

点赞数

分类专栏：分布式计算 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/seu_lyr/article/details/8666749

版权

hadoop 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

分布式计算

5 篇文章 0 订阅

订阅专栏

一概述：

(1)MapReduce任务过程分为两个处理阶段：map阶段和reduce阶段，每个阶段都以键/值对作为输入和输出，并由程序员选择它们的类型。其中map阶段的输出必须和reduce阶段的输入类型一致。

(2)MapReduce作业(job)是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。

Hadoop将作业分为小任务（task）来执行，其中包括两类任务：map任务和reduce任务。

map任务的数量由输入分片的数量决定；reduce任务的数量可由参数指定。

(3)有两类节点控制作业执行过程：一个jobtracker和一系列tasktracker。

jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。

tasktracker在运行任务的同时将运行进度报告发给jobtracker，jobtracker由此记录每项作业任务的整体进度。

(4)Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。

Hadoop会为每一个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录；reduce阶段对每个key调用reduce函数。

(5)数据本地化：Hadoop在存储有输入数据的节点上运行map任务，可以获得最佳性能。

reduce任务不具备数据本地化的优势——单个reduce任务的输入通常来自于所有的map任务的输出。

reduce任务的数量不是由输入数据决定的，而是特别指定的。

(6)每个reduce任务都有一个输出文件，reduce的输出通常保存在HDFS中以实现可靠存储。

map任务的将其输出写入本地磁盘而非HDFS。原因：因为map任务的输出是中间结果，该中间结果由reduce任务处理后才产生最终结果，而且一旦作业完成，map的输出结果可以被删除，因此把它存储在HDFS中并实现备份，难免有些小题大做。

二 MapReduce作业运行机制

待续...

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce

一概述：MapReduce任务过程分为两个处理阶段：map阶段和reduce阶段，每个阶段都以键/值对作为输入和输出，并由程序员选择它们的类型。其中map阶段的输出必须和reduce阶段的输入类型一致。MapReduce作业(job)是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分为小任务（task）来执行，其中包括两类任
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。