Hadoop---mapreduce架构概念

本文通过实例介绍了Hadoop MapReduce的工作原理,MapTask负责数据的并行处理,ReduceTask则进行结果的汇总。MapReduce流程包括Hdfs到Map,再到Reduce,最后返回Hdfs。Map数量由Split决定,Reduce数量依据需求和数据种类确定。同一key的数据会被分到同一组,调用一次reduce方法进行处理。理解MapReduce的关键在于其并行处理和数据分组的概念。
摘要由CSDN通过智能技术生成

先来举个栗子:
假如让你统计一个院子的车,统计每个品牌的车有多少个?你会怎么没去统计。
铁蛋来了,说soeasy,从前统计到后,累成狗。
那么,现在的扩大了,统计一个县城,或者一个区,你怎么去做。
铁蛋叫来了他的狐朋狗友,铁柱,二虎,波仔,妞妞,小花等等。一个人负责一个院子。让后每人统计好,最会汇总。
那么,是不是很快也很简单。
铁蛋又拍着胸脯吹了个牛说。别说一个县,只要朋友多,那都不是事。
这里我们是不是将事情分布,并且最后进行汇总。接下来进入主题。

MapReduce

为什么叫MapReduce,不叫小XXOO,apache ss,等。
MapTask—并行,比如铁蛋的多个朋友同时出去统计车。
ReduceTask----汇总, 统计完每个人的然后汇总。就是整个最后的结果。
在这里插入图片描述
1.1图片水平来看------------------>
一个input输入端,一个output输出端,mapTask的输出是reduceTask的输入。只有mapTask统计完了,reduceTask才能统计。线性依赖。
1.2图片垂直来看------------------>
map有三个,reduce有两个。map就是铁蛋的朋友,朋友越多执行效率越快。reduce也可以有多个。根据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值