2.3 Reduce任务

转载 2017年11月15日 11:49:13

2.3 Reduce任务

  Reduce任务是一个数据聚合的步骤。如果Reduce任务的数量没有指定,默认值为1。只执行1个Reduce,可能会面临这个Reduce节点负载过大的风险,而使用过多的Reduce任务则意味着复杂的洗牌处理(shuffle),并使输出文件的数量激增,从而对NameNode造成很大的压力。想要确定一个最优的Reduce任务的数量,关键是要理解数据分布和分片函数。

相关文章推荐

hive优化之-控制hive任务中的map数和reduce数

hive优化之-控制hive任务中的map数和reduce数 一、    控制hive任务中的map数:  1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 ...

hive任务卡在个别reduce的问题分析

最近微博有一个任务需要使用日曝光表做统计,发现这个任务很容易在stage1卡在reduce100%阶段不动,发邮件过来让帮找一下问题或者优化一下,和同事一起分析了一下原因,以下是分析过程:...

MapReduce学习笔记之Reduce任务(四)

1. Reduce任务Reduce任务是一个数据聚合的步骤。数量默认为1,而使用过多的Reduce任务则意味着复杂的shuffle,并使输出文件的数量激增。mapreduce.job.reduces属...

MapReduce(十一): 详解Reduce任务运行

详细描述在Redcue阶段,如何从Map端获取数据,然后Reduce处理后如何存储
  • dickens
  • dickens
  • 2014年09月02日 16:47
  • 926

详谈JobInProgress中Map/Reduce任务分配

众所周知,JobTracker节点使用配置的任务调度器TaskScheduler来为某一个具体的TaskTracker节点分配任务,同时这个任务调度器只能决定给该TaskTracker节点分配哪一个J...

揭秘InputFormat:掌控Map Reduce任务执行的利器

揭秘InputFormat:掌控Map Reduce任务执行的利器 作者 曹如进 发布于 2012年1月16日 领域  架构 & 设计  主题  大数据  标签  Had...

Reduce任务的Map输出复制器—ReduceCopier

在前面介绍Hadoop的Reduce任务执行框架的时候说过,作业的每一个Map任务被执行完之后,它们的输出结果均保存在各自执行节点的本地磁盘上,当reduce任务执行的时候,它需要自己去到所有的Map...

mapreduce源码分析之Reduce任务的运行

七.Reduce任务的运行 看看reduceTask里面的run方法:先看前几行代码跟map其实差不多,只是多了一个状态的设置 --------------------------...

mapreduce任务中数据分布倾斜导致reduce负载不均衡的解决方案

概述:从所周知,当需求中数据出现分布不均的情况时,按照hadoop mr任务的默认partition方法,会出现某些机子负载过重的情况,这样会拖慢整个任务进度。在这里我介绍一个用随机数解决这个问题的方...

Hadoop中Reduce任务的执行框架

在前面的一系列文章中我主要围绕Hadoop对Map任务执行框架的设计与实现展开了详细的讨论,记得在博文Hadoop中Map任务的执行框架中说过还要为大家详细地描述Hadoop对Reduce任务执行框架...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:2.3 Reduce任务
举报原因:
原因补充:

(最多只允许输入30个字)