MR(mapreduce)的工作原理图解

MapReduce是一种分布式计算模型,由Google提出,主要应用于处理海量数据。它包括Map和Reduce两个阶段,用户只需实现map()和reduce()函数。MR流程包括:代码编写、作业配置、提交作业、初始化作业、分配任务、执行任务、更新任务和状态直至完成作业。JobClient提交作业,JobTracker负责作业初始化、任务分配,TaskTracker执行Map和Reduce任务。作业完成后,结果写入HDFS。错误处理机制包括JobTracker和TaskTracker的故障恢复,以及Task的重试。Map任务处理输入文件,Reduce任务则在shuffle后处理数据并输出结果。
摘要由CSDN通过智能技术生成

MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.
MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。
这两个函数的形参是key、value对,表示函数的输入信息。

一、MR流程:

1:代码编写
2:作业配置

3:提交作业
4:初始化作业

5:分配任务
6--执行任务
7--更新任务和状态
8--完成作业





二、jobClient:提交作业
JobTracker:初始化作业,分配作业,TaskTrack

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值