Hadoop之Map-Reduce

最新推荐文章于 2023-01-25 17:21:31 发布

Watering_sea

最新推荐文章于 2023-01-25 17:21:31 发布

阅读量790

点赞数

分类专栏： hadoop 文章标签： hadoop 分布式框架密码

本文链接：https://blog.csdn.net/Watering_sea/article/details/47376943

版权

本文深入探讨了Hadoop的Map-Reduce框架，包括其基本原理——Mapper和Reducer阶段，以及data splitting、shuffling、partitioning和combining等步骤。此外，还介绍了MapReduce的体系结构，其中JobTracker负责任务调度，TaskTracker执行Map和Reduce任务。文章进一步讨论了性能调优策略，如合适的Reducer数量、大文件输入和压缩Map输出。最后，提到了MapReduce的容错机制，包括重复执行和推测执行策略，确保任务的可靠完成。

摘要由CSDN通过智能技术生成

连续发3篇hadoop的文章，还真的有点累,但是在发表过程中又对其原理又有了比较清晰的了解了.感觉还是不错的。
Hadoop的第二大框架Map-Reduce,即分布式处理框架.总的来说它是对HDFS的具体实现。
术语:

PayLoad - 应用程序实现映射和减少功能，形成工作的核心。

Mapper - 映射器的输入键/值对映射到一组中间键/值对。

NamedNode - 节点管理Hadoop分布式文件系统（HDFS）。

DataNode - 节点数据呈现在任何处理发生之前。

MasterNode - 节点所在JobTracker运行并接受来自客户端作业请求。

SlaveNode - 节点所在Map和Reduce程序运行。

JobTracker - 调度作业并跟踪作业分配给任务跟踪器。

Task Tracker - 跟踪任务和报告状态的JobTracker。

Job -程序在整个数据集映射器和减速的执行。

Task - 一个映射程序的执行或对数据的一个片段的减速器。

Task Attempt - 一种尝试的特定实例在SlaveNode执行任务。

1：Map-Reduce原理:*

把大文件分成很多个块，每一个块分别放在不同的节点上的
做一个map函数，可以被jobtracker分配到各个节点上运行
对分在机子上的数据进行map
mapper对原始数据进行抽取,在本地数据进行抽取
因此把比较大的工作进行分解成小工作,处理完之后再将结果融合。

由字面的意思就可以猜测到,此框架至少分2步,即mapper和reducer。

mapping阶段：定义一个数据处理函数mapper,该阶段MapReduce获取获取输入数据并将数据装入mapper。
Map-reduce的思想是”分而治之”

最低0.47元/天解锁文章

Watering_sea

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录