hadoop优化之MapReduce的Uber方式运行

最新推荐文章于 2024-01-09 20:03:11 发布

大数据交流官方群

最新推荐文章于 2024-01-09 20:03:11 发布

阅读量2.9k

点赞数 1

分类专栏： hadoop 文章标签： hadoop mapreduce 优化

本文链接：https://blog.csdn.net/hadoop_83425744/article/details/49306271

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

hadoop2.x版本中新增了Uber方式运行MR。

什么是Uber呢？

hadoop中对于Uber做了如下的定义：

1、mapreduce.job.ubertask.enable=true 首先你要启用uber模式，默认是false

2、map数量<=9,

3、reduce<=1,

4、所有输入文件的总长度<=默认块大小（128M），

5、mapreduce.map.memory.mb（默认1024）<=内存需求(内存需求的大小由yarn.app.mapreduce.am.resource.mb来决定，默认1536M)

6、cpu<=yarn.app.mapreduce.am.resource.cpu-vcores(默认1)

7、非链式方式运行MR

Uber方式运行MapReduce的好处是什么呢？

举例说明，假定默认ReduceTaskNum=1：

比如目标文件夹下有6个小文件，每个文件从5M-20M不等，现在需要通过MR执行相关的统计，

如果不采用Uber模式则需要启动MapReduce作业数为：

1、MapTask=6

2、ReduceTask=1

一起需要去资源管理器申请7次资源（此处省略了MRAppMaster的启动资源）

采用Uber方式运行：

总的资源只需要1个即可。这个资源会被重复利用。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据交流官方群

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop-Yarn的Uber、non-Uber、local模式详解

DengVerve的博客

01-28

578

Hadoop-Yarn的Uber、non-Uber、local模式详解 1、背景按照作业大小不同，MRAppMaster提供了三种作业运行模式：本地模式local，Uber模式，Non-Uber模式对于小作业，为了降低其延迟，可采用Uber模式，该模式下所有Map 任务和 Task 任务都会在同一个Container中启动，然后顺序执行。不会分别分配一个Container。对于大作业，则采用Non-Uber模式，MRAppMaster先为MapTask申请资源，当MapTask运行完成数目达到一定比

Hadoop2.6.0运行mapreduce之Uber模式验证

热门推荐

beliefer的博客

05-05

2万+

在有些情况下，运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大，如果此时的任务分片很多，那么为每个map任务或者reduce任务频繁创建Container，势必会增加Hadoop集群的资源消耗，并且因为创建分配Container本身的开销，还会增加这些任务的运行时延。如果能将这些小任务都放入少量的Container中执行，将会解决这些问题。

参与评论您还未登录，请先登录后发表或查看评论

mapreduce uber模式

u011500419的专栏

11-20

541

什么是uber模式 Uber模式简单地可以理解成JVM重用，该模式是2.x开始引入的；以Uber模式运行MR作业，所有的Map Tasks和Reduce Tasks将会在ApplicationMaster所在的容器（container）中运行，也就是说整个MR作业运行的过程只会启动AM container，因为不需要启动mapper 和 reducer containers，所以AM不需要和远程...

MapReduce的Uber运行模式

andyguan01_2的博客

04-23

622

Uber模式可以简单理解成JVM重用，该模式是2.x开始引入的。以Uber模式运行MR作业，所有的Map Tasks和Reduce Tasks将会在ApplicationMaster所在的容器（container）中运行，也就是说整个MR作业运行的过程只会启动AM container，因为不需要启动mapper和reducer containers，所以AM不需要和远程containers通信，整...

企业级Hadoop 2.x入门系列之十一MapReduce Uber 模式

云帆大数据

01-03

1441

Uber 模式是 Hadoop 2.X 中实现的一种针对MR小作业的优化机制。即如果作业足够小，则所有task在一个jvm（mr app master）中完成要比为每个task启动一个container更划算。当在运行作业的时候会有这样的提示： Jobjob_1404960815149_0001 running in uber mode : false 说明默认情况

flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar.tar.gz

11-14

在Hadoop 3.x中，引入了一些重要的改进和优化，如YARN的升级、HDFS的增强以及新的MapReduce API等。这些变化可能会影响Flink的运行，比如新的HDFS客户端API、安全认证机制等。Flink-shaded-hadoop-3-uber-jar通过...

flink-shaded-hadoop-2-uber-2.7.5-10.0.jar.zip

05-27

Hadoop，则是分布式存储和计算的基石，尤其是其 MapReduce 框架，是早期大数据处理的主要方式。然而，Flink 在处理大数据任务时，可能会依赖于 Hadoop 的某些组件，如 HDFS（Hadoop 分布式文件系统）或 YARN（Hadoop...

flink-shaded-hadoop-2-uber-2.6.5-10.0.zip

08-21

在这个案例中，Uber JAR包含了Flink自身所需的依赖以及Hadoop 2.6.5的相关库，使得Flink可以在不需要额外配置Hadoop环境的情况下直接运行。这样做不仅简化了部署流程，还避免了因依赖冲突可能导致的问题。 Flink与...

Hadoop深入浅出MapReduce详解（全网最细）

清风的博客

05-28

1万+

文章目录前言-MR概述1.Hadoop MapReduce设计思想及优缺点设计思想优点：缺点：2. Hadoop MapReduce核心思想3.MapReduce工作机制剖析MapReduce运行机制过程描述第一阶段：作业提交（图1-4步）第二阶段：作业初始化（图5-7步）第三阶段：任务的分配(图8)第四阶段：任务的执行（图9-11）第五阶段：作业完成Tips 知识点：进度和状态更新4.MR各组成部分工作机制原理4.1概览：4.2 MapTask工作机制4.3 ReduceTask工作机制4.4shuffl

flink-shaded-hadoop-2-uber-2.7.5-10.0.jar

02-18

总结起来，"flink-shaded-hadoop-2-uber-2.7.5-10.0.jar" 是 Flink 为兼容 Hadoop 2.7.5 版本而构建的混淆 JAR 文件，它集成了 Hadoop 的核心组件和服务，使得 Flink 能够在 Hadoop 生态系统中高效运行。理解和掌握...

MapReduce执行任务时卡在mapreduce.Job: Running Job这一步该如何解决

sinat_33769106的博客

07-03

1万+

问题描述：在centos7系统搭建的伪分布式Hadoop基础上，用Sqoop把HDFS上的数据导出到Mysql的时候，发现任务执行时卡死在如下图所示的这一步：卡了接近十分钟意识到可能永远也不会结束了....赶紧ctrl+c结束进程，找找原因。首先搜了下资料，发现大多数教程都说是内存不足引起的，可在运行这个命令之前只运行过一次wordcount例程，按道理不可能占用过多内存。排除内存问题。打开had...

MapReduce小作业优化之Uber模式

welcome to zdsg's csdn

09-08

394

1.什么是Uber模式 Uber模式是Hadoop2.0中实现的一种针对MR小作业的优化机制。即如果作业足够小，则所有task在一个jvm（mrappmaster）中完成要比为每个task启动一个container更划算。在有些情况下，运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大，如果此时的任务分片很多，那么为每个map任务或者reduce任务频繁创建Conta...

Hadoop：INFO mapreduce.Job: Running job

weixin_45532984的博客

03-25

4777

（-1）把Yarn运行的内存搞成8g，4g也行，如果是开的虚拟机，这个好办，如果是用云服务器搭建的，那就换个运存大点的服务器，不想换那就参照（0），CSDN上最吊的。（0）CSDN最迪吊解决办法，涉及到本质，其他都是不让MapReduce运行在Yran上，这个是真正修改了Yran与运行所需要的内存包括物理内存和虚拟内存 Hadoop提交MapReduce任务后卡在mapreduce.Job: Running job_阿团团的博客-CSDN博客（1）查看所有的结点的NodeManager开启情况

参数调优推测执行_Hadoop（10）——MapReduce调优

weixin_39925031的博客

01-13

203

一、调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和reducer两个阶段组成，其中mapper阶段包括：(1)数据的读取(2)map处理以及写出操作(排序和合并/sort&merge)，而reducer阶段...

MapReduce running in uber mode （jvm重用）

weixin_33939843的博客

11-29

538

原文http://blog.csdn.net/samhacker/article/details/15692003 yarn-site.xml 主要是这几个参数 - mapreduce.job.ubertask.enable | (false) | 是否启用user功能。如果启用了该功能，则会将一个“小的application”的所有子task在同一个JVM里面执行，达到JVM重用的目的。...

剖析MapReduce作业运行机制

Sweeneyzuo的博客

11-21

590

作业的提交 Job的submit()方法创建一个内部的JobSummiter 实例，并且调用其submitJobInternal()方法(参见步骤1)。提交作业后，waitForCompletion()每秒轮询作业的进度，如果发现自上次报告后有改变，便把进度报告到控制台。作业完成后，如果成功，就显示作业计数器;如果失败，则导致作业失败的错误被记录到控制台。 JobSummiter所实现的作业...

hadoop-uber作业模式

雪泪寒的博客

02-20

621

hadoop-uber作业模式如果作业很小，就选择和自己在同一个JVM上运行任务，与在一个节点上顺序运行这些任务相比，当application master 判断在新的容器中的分配和运行任务的开销大于并行运行它们的开销时，就会发生这个情况。哪些是小作业呢？小作业就是小于 10个 mapper 而且只有 1 个 ...

Uber Hadoop 文件系统最佳实践

weixin_34174322的博客

09-16

216

2019独角兽企业重金招聘Python工程师标准>>> ...

Hadoop之mapreduce参数大全-3