Hadoop架构介绍——MapReduce的体系结构

本文介绍了Hadoop的分布式编程架构,重点讲解了MapReduce的分而治之思想,包括Map任务的分解和Reduce任务的汇总。MapReduce适用于大规模数据集处理,如图书馆藏书清点、单词统计等。Hadoop采用Master-Slave结构,涉及Client、JobTracker、TaskTracker和HDFS四个实体。作业(Job)包含MapReduce程序的jar文件和类,任务(Task)分为MapTask和ReduceTask,键值对是其输入输出的基础形式。文章还概述了MapReduce的生命周期、任务调度算法以及状态更新过程。
摘要由CSDN通过智能技术生成
MapReduce的体系结构:

-分布式编程架构

-以数据为中心,更看重吞吐率

-分而治之(把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后整合各个节点的中间结果得到最终的输出)

-Map把一个任务分解成多个子任务

-Reduce将分解后的多任务分别处理,并将结果汇总为最终的结果

应用举例:清点图书馆藏书、统计单词的出现次数、混合辣椒酱的制作等等。


结构图:

也采用了Master-Slaver结构。

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值