Hadoop---mapreduce架构概念

最新推荐文章于 2024-09-19 17:35:00 发布

power_k

最新推荐文章于 2024-09-19 17:35:00 发布

阅读量239

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop

本文链接：https://blog.csdn.net/power_k/article/details/92395267

本文通过实例介绍了Hadoop MapReduce的工作原理，MapTask负责数据的并行处理，ReduceTask则进行结果的汇总。MapReduce流程包括Hdfs到Map，再到Reduce，最后返回Hdfs。Map数量由Split决定，Reduce数量依据需求和数据种类确定。同一key的数据会被分到同一组，调用一次reduce方法进行处理。理解MapReduce的关键在于其并行处理和数据分组的概念。

先来举个栗子：
假如让你统计一个院子的车，统计每个品牌的车有多少个？你会怎么没去统计。
铁蛋来了，说soeasy，从前统计到后，累成狗。
那么，现在的扩大了，统计一个县城，或者一个区，你怎么去做。
铁蛋叫来了他的狐朋狗友，铁柱，二虎，波仔，妞妞，小花等等。一个人负责一个院子。让后每人统计好，最会汇总。
那么，是不是很快也很简单。
铁蛋又拍着胸脯吹了个牛说。别说一个县，只要朋友多，那都不是事。
这里我们是不是将事情分布，并且最后进行汇总。接下来进入主题。

MapReduce

为什么叫MapReduce,不叫小XXOO，apache ss，等。
MapTask—并行，比如铁蛋的多个朋友同时出去统计车。
ReduceTask----汇总，统计完每个人的然后汇总。就是整个最后的结果。
在这里插入图片描述
1.1图片水平来看------------------>
一个input输入端，一个output输出端，mapTask的输出是reduceTask的输入。只有mapTask统计完了，reduceTask才能统计。线性依赖。
1.2图片垂直来看------------------>
map有三个，reduce有两个。map就是铁蛋的朋友，朋友越多执行效率越快。reduce也可以有多个。根据我们的需求。
1.3流程
Hdfs—map----reduce----hdfs
注意点：
一个切片对应一个map。切片是逻辑范围的。默认一个block，一个split，一个map。
但是比如说你的文件需要128M才能分析出东西。block是64M，这里就是需要两个block,有个split,有个map。split是灵活的。
split输入以记录为单位（默认一条记录是一行）记录可能是多种。
输入(格式化k,v

最低0.47元/天解锁文章