mapreduce--如何设置reducer的个数

最新推荐文章于 2023-10-08 10:05:22 发布

播种生活

最新推荐文章于 2023-10-08 10:05:22 发布

阅读量4.1k

点赞数

分类专栏： hadoop DevOps linux Ubuntu

本文链接：https://blog.csdn.net/momomi_2005/article/details/23050605

版权

hadoop 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

linux

13 篇文章 0 订阅

订阅专栏

DevOps

9 篇文章 0 订阅

订阅专栏

1，在缺省情况下，一个mapreduce的job只有一个reducer；在大型集群中，需要使用许多reducer，中间数据都会放到一个reducer中处理，如果reducer数量不够，会成为计算瓶颈。

2，reducer的最优个数与集群中可用的reducer的任务槽数相关，一般设置比总槽数稍微少一些的reducer数量；hadoop文档中推荐了两个公式：

0.95*NUMBER_OF_NODES*mapred.tasktracker.reduce.tasks.maximum

1.75*NUMBER_OF_NODES*mapred.tasktracker.reduce.tasks.maximum

备注：NUMBER_OF_NODES是集群中的计算节点个数；

mapred.tasktracker.reduce.tasks.maximum：每个节点所分配的reducer任务槽的个数；

3，在代码中通过：JobConf.setNumReduceTasks(Int numOfReduceTasks)方法设置reducer的个数；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

播种生活

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MapReduce中的Map，Reduce个数设定

Dzhantao的博客

07-03

1万+

一、Map的个数在map阶段读取数据前，FileInputFormat会将输入文件分割成spilt，而spilt的个数决定了map的个数（一个spilt分片对应一个map）。影响map个数的因素只要有： 1）文件的大小。比如，当文件大于128M（block默认值）而小于256M时，文件会被划分成两个spilt。 2）文件的个数。FileInputFormat按文件进...

MapReduce----1. MapReduce 基础入门

XiaodunLP的博客

02-02

275

目录 1、MapReduce 入门 1.1、什么是 MapReduce 1.2、为什么需要 MapReduce 1.3、MapReduce 程序运行演示 1.4、MapReduce 示例程序编写及编码规范 1.5、MapReduce 运行方式及 Debug 本地运行模式：Eclipse 开发环境下本地运行，好处是方便调试和测试集群运行模式：打 jar 包，提交任务到集群运行 ...

参与评论您还未登录，请先登录后发表或查看评论

调整reduce个数

最新发布

andarly的专栏

10-08

549

2）另外，有多少个reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；在设置reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的reduce数；使单个reduce任务处理数据量大小要合适；1）过多的启动和初始化reduce也会消耗时间和资源；（1）每个Reduce处理的数据量默认是256MB。（2）每个任务最大的reduce数，默认为1009。（3）计算reducer数的公式。设置每个job的Reduce个数。

自己设置mapreduce程序的map个数和reduce个数

weixin_42874157的博客

06-11

3119

设置reduce个数（一个reduce生成一个文件） 1、如果不指定reduce个数，hive会基于一下两个参数自动计算（1）hive.exec.reducers.bytes.per.reducer 这是每个reduce处理的数据量，默认为1G=1000000000 （2）hive.exec.reducers.max(每个任务的最大reduce个数，默认1009) reduce个数=min(参数...

MapReduce的Reducer数量确定

fengzaibiao的专栏

11-13

1352

Reducer的数量可以由程序员明确设置，那么设置多少Reducer可以达到较好地效果呢？Reducer的数量范围为：(0.95 ~1.75 ) * 节点数量 * 每个节点上最大的容器数。参数yarn.scheduler.minimum-allocation-mb设置了每个容器可请求的最小内存，那么最大容器数可根据总的内存除以该参数计算得出。当使用0.75时，所有的Reducer会被立即加载，并当

Mapreduce任务中map和reduce数量设置

forerunner123的博客

04-15

1917

从MR的运行机制可知，map数量受split（map输入数据块大小）影响，reduce数量受partition（map shuffle输出）影响。 1.map数量设置 hadoop并没有直接提供设置map数量的参数，而是通过调整split块大小调整，通过调整hadoop2.x mapreduce.input.fileinputformat.split.maxsize和mapreduce.input...

Hadoop--MapReduce--搭建WordCount案例

weixin_44976835的博客

04-06

256

流程输入数据 Mapper 将MapTask传来的文本内容（Text类型）先转换为String类型根据空格将每行切分为单词（xieshisan xieshisan）将单词输出为<单词,1>（<xieshisan,1>） Reduce 汇总各个key的个数（xieshisan,1 xieshisan,1）输出该key的总次数（xieshisan,2） Driver 获取配置信息，获取job对象实例指定本程序的jar包所在的本地路径关键Mapper

hadoop-mapreduce-1

weixin_38513683的博客

06-16

145

Hadoop-Mapreduce 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduce负责“合”，即对map阶段的结果进行全局汇总。 MapReduce运行在yarn集群 ResourceManager Nod

谈笑间学会MapReduce-优化Reduce任务核心原理

阿尼古

03-09

397

Reduce任务核心原理 reduce任务的处理阶段 reduce任务处理是包含三个阶段的一个序列。除用户定义的reduce函数的执行是定制的之外，还有其持续时间依赖于每个阶段流经的数据量以及底层Hadoop集群的性能。对每个阶段进行性能分析有助于识别潜在瓶颈以及低速的数据处理。下面给出reduce任务的三个主要阶段详细分析一下reduce的每一个阶段：对于Shuffle阶段的性能...

从零开始大数据【1.3】-- mapreduce中的分区(设置多个reducer)

rory0114的博客

03-13

950

从零开始大数据【1.3】-- mapreduce中的分区文章目录从零开始大数据【1.3】-- mapreduce中的分区上期回顾：主要内容真实案例代码编写运行结果总结上期回顾：上一期自定义了mapreduce中kv对可以用的数据类型。并且使用了一个谷歌应用商场数据作为数据集。接下来的案例都会使用这个数据集，在这一节中将学会如何自定义mapreduce过程中的分区。主要内容所谓分区，即re...

hadoop中map和reduce的数量设置问…

nuoline的专栏

02-25

1891

map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交m

MapReduce的自定义分区与ReduceTask数量

大数据梦想家

11-14

5465

本篇博客小菌为大家带来的是MapReduce的自定义分区与ReduceTask内容的分享(ReduceMap具体计算流程见《MapReduce中shuffle阶段概述及计算任务流程》)。在MapReduce...

MapReduce数量调整

yuqiangdmp的博客

08-18

222

建议根据实际数量调整split大小，最大reduce数设置不超过3000;Reduce Split大小设置：<1亿/256M,1-10亿/512M,10-50亿/1024M，50-100亿/2048M,>100亿/3072M。建议根据实际数据量调整split大小，<1亿/256M,1-10亿/512M,10-50亿/1024M，50-100亿/2048M,>100亿/3072M。

MapReduce之mapper以及reducer的个数决定性因素

LJJ1338的博客

09-13

7482

这个图大概可以描述mapreduce计算模型的执行过程，下面我们就围绕这个图聊几个问题，其中有工作中非常有用的问题： 1. mapper的个数结论：mapper的个数是由输入数据的大小决定的，一般不需要我们去设置，如果你想控制mapper的个数，那么需要先了解hadoop是怎么控制mapper的个数。如图所示，每个Mapper Tasker对应一个split（切片）,要处理的file...

hive 中reduce个数设定

u011250186的博客

04-22

2237

hive 中reduce个数设定

HIVE中MAP和REDUCE数量

Miracle.Zhao的博客

04-30

2798

一、总览MR执行过程一般的 MapReduce 程序会经过以下几个过程：输入（Input）、输入分片（Splitting）、Map阶段、Shuffle阶段、Reduce阶段、输出（Final result）。 1、输入就不用说了，数据一般放在 HDFS 上面就可以了，而且文件是被分块的。关于文件块和文件分片的关系，在输入分片中说明。 2、输入分片：在进行 Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片（split），每个输入分片会对应一个 Map 任务，输入分片往.

java多个mapreduce_多个MapReduce作业，包含多个文件作为输入和多个reducer

weixin_31342203的博客

02-25

230

我需要链接多个MapReduce流作业，以便在大型数据集上执行一些计算 .我打算为每项工作使用多个减速器，以加快整体工作 . 作为工作流程调度程序，我使用Oozie .这是一个说明我的问题的例子：假设我有两个文件File 1: File 2:A B 1 A B 3A C 4 C D 6B D 2 B D 1我想有两...

Hive之MR优化

勇心在馨

02-10

1345

1、合理设置Map数（1）通常情况下，作业会通过 input 的目录产生一个或者多个 map 任务主要的决定因素有： 1）input 的文件总个数 2）input 的文件大小 3）集群设置的文件块大小（2）是不是 map 数越多越好？答案是否定的。如果一个任务有很多小文件（远远小于块大小 128m），则每个小文件也会被当做一个块，用一个 map 任...

MapReduce并行算法设计与应用解析

"基于MapReduce的并行算法设计的课件，涵盖了MapReduce的基本概念、字数统计、平均数计算和单词共现矩阵的计算等核心内容，由哈尔滨工业大学的王宏志教授讲解。" MapReduce是一种由Google公司开发的分布式编程模型...