连续发3篇hadoop的文章,还真的有点累,但是在发表过程中又对其原理又有了比较清晰的了解了.感觉还是不错的。
Hadoop的第二大框架Map-Reduce,即分布式处理框架.总的来说它是对HDFS的具体实现。
术语:
PayLoad - 应用程序实现映射和减少功能,形成工作的核心。
Mapper - 映射器的输入键/值对映射到一组中间键/值对。
NamedNode - 节点管理Hadoop分布式文件系统(HDFS)。
DataNode - 节点数据呈现在任何处理发生之前。
MasterNode - 节点所在JobTracker运行并接受来自客户端作业请求。
SlaveNode - 节点所在Map和Reduce程序运行。
JobTracker - 调度作业并跟踪作业分配给任务跟踪器。
Task Tracker - 跟踪任务和报告状态的JobTracker。
Job -程序在整个数据集映射器和减速的执行。
Task - 一个映射程序的执行或对数据的一个片段的减速器。
Task Attempt - 一种尝试的特定实例在SlaveNode执行任务。
1:Map-Reduce原理:*
把大文件分成很多个块,每一个块分别放在不同的节点上的
做一个map函数,可以被jobtracker分配到各个节点上运行
对分在机子上的数据进行map
mapper对原始数据进行抽取,在本地数据进行抽取
因此把比较大的工作进行分解成小工作,处理完之后再将结果融合。
由字面的意思就可以猜测到,此框架至少分2步,即mapper和reducer。
mapping阶段:定义一个数据处理函数mapper,该阶段MapReduce获取获取输入数据并将数据装入mapper。
Map-reduce的思想是”分而治之”