MapReduce核心思想

最新推荐文章于 2023-10-22 02:42:12 发布

Daniel_Dictator

最新推荐文章于 2023-10-22 02:42:12 发布

阅读量482

点赞数

分类专栏： MapReduce核心思想文章标签： MapReduce核心思想

本文链接：https://blog.csdn.net/Daniel_Dictator/article/details/102810069

版权

MapReduce核心思想专栏收录该内容

1 篇文章 0 订阅

订阅专栏

MapReduce核心思想：

在这里插入图片描述

1）分布式的运算程序往往需要分成至少2个阶段
2）第一个阶段的maptask并发实例，完全并行运行，互不相干。
3）第二个阶段的reducetask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出。
4）MapReduce编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个mapreduce程序，串行运行。

MapReduce进程（MR）

一个完整的mapreduce程序在分布式运行时有三类实例进程：
1）MrAppMaster：负责整个程序的过程调度及状态协调。
2）MapTask：负责map阶段的整个数据处理流程。
3）ReduceTask：负责reduce阶段的整个数据处理流程。

MapReduce编程规范

用户编写的程序分成三个部分：Mapper，Reduce和Driver
1.Mapper阶段
（1）用户自定义的Mapper要继承自己的父类
（2）Mapper的输入数据是KV对的形式（KV的类型可以自己定义）
（3）Mapper中的业务逻辑写在map（）方法中
（4）Mapper的输出数据是KV对的形式（KV的类型可以自己定义）
（5）map（）方法（maptask进程）对每一个<K,V>调用一次
2.Reducer阶段
（1）用户自定义的Reducer要继承自己的父类
（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
（3）Reducer的业务逻辑写在reudce（）方法中
（4）Reducetask进程对每一组相同的<K,V>组调用一次reduce方法
3.Driver阶段
相当于yarn集群的客户端，用于提交我们整个程序到yarn集群，提交的是封装了mapreduce程序相关运行参数的job对象

Daniel_Dictator

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce核心思想

MapReduce核心思想：1）分布式的运算程序往往需要分成至少2个阶段2）第一个阶段的maptask并发实例，完全并行运行，互不相干。3）第二个阶段的reducetask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出。4）MapReduce编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个mapreduce程...
复制链接

扫一扫

专栏目录