MapReduce处理流程

MapReduce是Hadoop框架下的分布式计算组件,通过JobTracker和TaskTracker进行任务调度与执行,主要分为map和reduce两个阶段。map阶段将任务分解,经过分区、排序和溢写处理,reduce阶段则进行数据聚合,将结果写入HDFS。然而,MapReduce存在单点故障、内存限制和计算延迟等问题。
摘要由CSDN通过智能技术生成

在了解了Hadoop的组建以及底层框架之后我们知道,Hadoop的底层是通过HDFS进行数据的存储,将数据存储到集群中然后调用其中的数据进行相应的计算,那么问题来了,谁来进行计算的操作呢?这个就是Hadoop的另外一个底层框架,也就是MapReduce,他在集群的作用就是负责进行数据的处理过程
为什么要使用mapreduce呢?因为mapreduce的核心是将用户编写的业务逻辑代码和自带的默认组件融合成一个完整的分布式应用程序然后提交到集群中进行处理,而大量的数据在单一的机器上进行运行是不可能的,硬件的限制决定了它根本完不成这个艰巨的任务,而且如果将一个单机的应用程序发放到一个集群中来分布式处理,那么势必会增加程序的复杂度和开发的难度,所以,综上考虑之后,引入了mapreduce计算框架,将分布式计算的复杂度交给框架来处理,开发人员就可以集中精力子业务逻辑上
MapReduce主要由JobTracker和TaskTracker(JobTracker负责资源管理和作业控制,TaskTracker负责任务的运行)组成,但在运行的过程中主要分为map和reduce两个阶段,map阶段就是将从jobtracker传入tasktracker的计算任务进行分解,分成一个个的小块,每一个小块都是以键值对的方式存在。对于多个map人物的输出,按照不同的分区copy到不同的节点上,然后根据键的值对map便利之后的键值对数据进行reduce聚合,相同键的放到一个reduce节点上(一般的map和reduce不在同一个节点上),然后对于reduce的输出的键值对写入HDFS中,但是在map和reduce的操作额过程中间会产生shuffle操作,将map分解后的数据先根据key进行分区,相同的key的值分配

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值