MR 流程

最新推荐文章于 2022-06-28 21:47:59 发布

weixin_30716725

最新推荐文章于 2022-06-28 21:47:59 发布

阅读量160

点赞数

原文链接：http://www.cnblogs.com/xiangyuguan/p/11357654.html

版权

1、输入文件分片，每一片都由一个MapTask来处理

2、Map输出的中间结果会先放在内存缓冲区中，这个缓冲区的大小默认是100M，当缓冲区中的内容达到80%时（80M）会将缓冲区的内容写到磁盘上。也就是说，一个map会输出一个或者多个这样的文件，如果一个map输出的全部内容没有超过限制，那么最终也会发生这个写磁盘的操作，只不过是写几次的问题

3、从缓冲区写到磁盘的时候，会进行分区并排序，分区指的是某个key应该进入到哪个分区，同一分区中的key会进行排序，如果定义了Combiner的话，也会进行combine操作

4、如果一个map产生的中间结果存放到多个文件，那么这些文件最终会合并成一个文件，这个合并过程不会改变分区数量，只会减少文件数量。例如，假设分了3个区，4个文件，那么最终会合并成1个文件，3个区

5、以上只是一个map的输出，接下来进入reduce阶段

6、每个reducer对应一个ReduceTask，在真正开始reduce之前，先要从分区中抓取数据

7、相同的分区的数据会进入同一个reduce。这一步中会从所有map输出中抓取某一分区的数据，在抓取的过程中伴随着排序、合并

8、reduce输出

转载于:https://www.cnblogs.com/xiangyuguan/p/11357654.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30716725

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

MR流程总结

ZJ_2459的博客

02-26

2149

maptask的数量由客户机的切片信息决定的一、在我们提交完MR程序之后，MR程序会先后经历map，reduce阶段，下面我们详细的来解析一下各个阶段： 1、map阶段，在这个阶段主要分如下的几个步骤read，map,collect，溢写，combine阶段 (1)、在read阶段，maptask会调用用户自定义的RecordReader方法，在splitInput中解析出一个个的key-val...

从gitlab拉取代码、提交代码、提MR流程

热门推荐

Delicia_Lani的博客

12-18

2万+

以前在小公司实习，只需要简单提交代码，没有涉及代码分支，请求合并分支等，现在入职到大公司，代码规范要求较高，且多人协作开发，这一必须的技能要会，手忙脚乱之余，终于搞懂了整个流程。第一个疑问：我从gitlab上面拉代码的时候要不要切分支？ git clone代码之前，可以直接拉取master分支上的代码，master分支的代码要求时刻处于部署的状态，是完整的。代码拉下来之后，本地代码也...

参与评论您还未登录，请先登录后发表或查看评论

mr程序代码

11-07

本代码使用mapreduce实现，包含mr操作文件，操作hive，hbase，关系型数据库等等。

MR工作流程

jshazhang的专栏

03-05

2376

MR工作流程文章目录MR工作流程JOB提交创建staging路径获取jobId上传jar包到集群计算切片，生成切片规划文件向Stag路径写job.XML提交YARN配置上下文状态转换MRAppMasterYARNChaildMAPTaskMapOutputBuffer 环形缓冲区ReducTaskcopyPhaseFetcher线程sortPhasereducePhase写文件 JOB提交客户端提交Job.waitForCompletion Job.submit setUseNewAPI()适配API

MapReduce原理1

weixin_34209406的博客

04-28

175

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 1.1 为什么要MAPREDUCE （1）海量数据在单机上处理因为硬件资源限制，无法胜任（2）而一旦将单机版程序扩展到集群来分布式运行，将极大...

一个简单的MR程序

forerunner123的博客

04-15

639

一、pom.xml <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.5.0</version> </dep...

数据清洗/数据预处理（MR程序）

阳哥的博客

09-02

2516

数据质量的好与坏直接关系到我们最终的数据分析结果的正确与否。如果想要保证数据的高质量，我们需要对数据进行清洗，清洗有两个作用： 1、将数据质量不好的数据清洗掉，过滤掉不合法的数据 2、将原始数据中的某些信息转换成我们容易操作的字段或者模型信息，将数据中的某些数据的格式进行转换，以便我们后期处理。数据预处理/数据清洗（本案例是分析用户使用网站产生的点击流）日志信息： 120.191.181.178 - - 2018-02-18 20:24:39 "POST https:...

Mapreduce全流程(MR流程详解)

Wx_wxr的博客

03-27

3615

Mapreduce工作全流程 mapreduce工作三大核心问题 1.图示读数据到底是怎么回事？ shuffle到底是什么？结果数据到底是怎么回事？ mapreduce的工作流程 1.读数据 1.1对文件切片产生的问题的解决图示理解：当文件进行切片时，有可能会把单词且分开比如：hello切分为he和llo 为了能够完整的，不出错的统计每一个单词的出现。有以下解决方案解...

YARN提交MR程序流程以及MR调优

qq_22796957的博客

07-10

2053

YARN提交MR程序流程 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成，如图4-23所示。图4-23 Yarn基本架构 Yarn工作机制 1．Yarn运行机制，如图4-24所示。图4-24 Yarn工作机制 2．工作机制详解（1）MR程序提交到客户端所在的节点。（2）YarnRunner向ResourceManager申请一个Application...

Hadoop入门之Yarn调度MR流程

筑梦者

08-28

2861

首先明确下Yarn到底是什么? Yarn是一个资源调度系统,主要负责任务的维持及为任务分配需要的运行资源. 1.客户端生成相应的文件后,连接resourceManager请求提交一个application 2.resourceManager(RM)给客户端返回一个地址,供客户端提交文件. 3.Client提交文件到指定的HDFS地址上 4.Cli

MR 入门程序

weixin_44824330的博客

10-09

641

1.1 MR 入门程序需求： wangkai gjf zkf suns gzy wangkai zkf suns gzy zkf suns gzy hxz leijun wangkai 2 gjf 1 zkf 3 suns 3 gzy 3 hxz 1 leijun 1 （1）依赖 <dependency> <groupId&...

MR程序运行的三种方式：window本地运行、windwo推送程序到linux集群运行、linux集群运行

あずにゃん梓喵的博客

04-26

1174

大数据组件使用总文章 MR程序运行的三种方式： 1.window本地运行MR程序： 1.IDEA 本地执行，只需要maven配置大数据组件的相关jar包即可。 2.需要： // 指定使用本地执行 conf.set("map...

MR程序：统计城市空气质量

qq_43494013的博客

06-28

757

MR程序：统计城市空气质量

面试之大数据组件工作原理

qq_27924553的博客

01-18

1057

1、数据加工整体的流向 1.1、业务交互数据 -后端埋点数据业务流程中产生的登录、订单、用户、商品、支付等数据，通常存储在DB中，MySQL、oracle中 web/app业务交互 - 业务服务器 - mysql业务数据（业务日志数据） - sqoop上传到hdfs ①业务数据上传到mysql数据库中，有些表需要每天进行更新，便于较少数据的增删改查； ②mysql将数据通过sqoop上传到hdfs上，sqoop上传时，运行时间比较长； 1.2、前端埋点用户行为数据与产品发生交互的数据，用户的曝光，点击

MR 程序代码

qq_38999072的博客

08-22

712

一、建立MAVEN工程，在POM.XML中引入JAR包 pom.xml <dependencies> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.14.0</versio

手写一个简单的MR程序，并在集群中运行！！（wordcount）

Mr.Zheng的博客

03-05

783

前言实现一个手写的WC程序，并打包在集群上运行。创建一个Maven工程，导入pom 工程目录导入pom <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM...

5.MR应用程序模板

文洲的专栏

03-06

508

MR常用需求 MR应用程序模板程序演示和演示 MR常用需求在进一步讲解MR各个组件前，先详细说下编写常用MR需要考虑的点。之前讲过最简单MR如何编写，而在实际应用中，为了工程考虑和复用性，还需要考虑配置解析、执行环境准备、任务参数设置、目录清理。配置解析：默认hadoop jar执行时使用集群当前配置文件配置。如下图，输入hadoop fs时出现如下通用选项，可以通过命令行-con...

如何编写MR程序

分布式应用与服务器架构专栏

08-08

1100

最近开始研究MR的编写与运行原理，稍后会带来研究的成果。关于如何运行MR程序很多博客都有介绍，这里就不多描述了。该篇博客会持续更新，增加新的内容上来。目前碰到的第一个问题就是在Eclipse里开发MR时，碰到权限问题，报InvalidInputException:Input path does not exist: hdfs://master:8020/user/cheny

MR详细运行原理及过程

weixin_47709910的博客

10-29

3043

文章目录 MR的原理和运行流程 Map的运行过程 Reduce处理过程 Shuffle过程 MR运行过程 Yarn && Job MR的原理和运行流程 Map的运行过程以HDFS上的文件作为默认输入源为例（MR也可以有其他的输入源） [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-419qFeIb-1589376928673)(https://github.com/jiaoqiyuan/163-bigdate-note

MR on yarn运行流程