Hive进阶设置reduce Task数量

最新推荐文章于 2024-06-17 16:05:51 发布

孙文旭

最新推荐文章于 2024-06-17 16:05:51 发布

阅读量3.6k

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/qq_35495339/article/details/95106285

版权

Hive 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

思考：某个MapReduce程序，到底有多少个Map Task和reduceTask
mapTask：
要处理的数据放在HDFS上，有多少个Block就有几个Maptask，一个block被一个MapTask处理。
reduceTask:
自己编写MapReduce程序，自己设定
hive：下面3个参数决定

设置每个reduceTask处理的数据量

在hive cli中执行hql控制台会打印一下日志信息
在这里插入图片描述
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
默认：256000000 =256M
限制一个MapReduce程序，Reduce Task最大数量
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
默认值：1009
表示reduce的个数
In order to set a constant number of reducers:
set mapreduce.job.reduces=
默认：-1

我们可以在hive-site.xml中

默认reduce的任务个数
	<property>
		<name>mapreduce.job.reduces</name>
		<value>5</value>
	</property>
	。。。其他类似

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

孙文旭

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数仓工具—Hive进阶之优化reduce任务数量(10)

11-10

6万+

优化 reduce 任务数量前面我们介绍过了，如何控制map 的数量，以及为什么要控制map 的数量，具体可以参考前面的文章，Hive进阶之优化map任务数量,最终我们得到了一个结论，那就是使大数据量利用合适的map数；使单个map任务处理合适的数据量，这个就可以作为我们调节map 任务数的原则。今天我们看一下如何优化 reduce 任务数量为什么要控制reduce 数量其实为什么要控制reduce 数量和为什么要控制map 数量是一样的，reduce 数量太少，每个reducer 处理的数据太多就

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

欢迎来到我的博客，一起探索代码里的世界！

03-13

2946

Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能本质：将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理，它的前身为Shark，在Spark 1.3.0版本后才成长为正式版，可以彻底摆脱之前Shark必须依赖HIVE的局面。

参与评论您还未登录，请先登录后发表或查看评论

MapReduce任务参数调优

freespace

10-30

528

MapReduce任务参数调优本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。 Hadoop的默认配置文件（以cdh5.0.1为例）： core-default.xml hdfs-default.xml mapred-default.xml 说明：在hadoop2中有些参数名称过时了，例如原来的mapred.reduc...

hive进阶--调优、源码、debug调试方法

Tongya1998的博客

07-17

938

hive进阶学习、通过源码更好的了解Hive

Hive 如何设置ReduceTask的数量

weixin_45131142的博客

07-08

991

引言：思考某个MapReduce程序，到底有多少个Map Task和reduceTask mapTask：要处理的数据放在HDFS上，有多少个Block就有几个Maptask，一个block被一个MapTask处理。 reduceTask: 自己编写MapReduce程序，自己设定 hive：下面3个参数决定：（1）设置每个reduceTask处理的数据量： In order to chang...

reduce task 数量

shuhuai007的专栏

10-31

2152

Hadoop wiki(http://wiki.apache.org/hadoop/HowManyMapsAndReduces)对这个问题有较详细的解释，大致有以下几个观点：增加task的数量，一方面增加了系统的开销，另一方面增加了负载平衡和减小了任务失败的代价；map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了

MapReduce的分区与ReduceTask的数量

11-14

8223

MapReduce的分区与ReduceTask的数量在MapReduce中，通过指定分区，会将同一个分区的数据发送到同一个reduce中，例如为了数据的统计，可以把一批类似的数据发送到同一个reduce当中去，在同一个reduce中统计相同类型的数据，就可以实现类似数据的分区，统计等直观的说就是相同类型的数据，送到一起去处理，在reduce当中默认分区只有1个。 MapReduce当中的分区...

hive中reducetask数量是怎么推算的

qq_23596677的博客

08-14

1611

　　我们在使用Hive查询数据的时候经常会看到如下的输出： Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order ...

Hive--参数优化、Map、Reduce Task个数优化

qq_41301707的博客

12-16

1800

Hive--优化 Hive中的执行引擎目前支持：MapReduce、Spark、Tez 本文设定的执行引擎为MapReduce 1 Hive--参数优化 Hive官网--参数 1.1 hive.fetch.task.conversion Default Value: minimal in Hive 0.10.0 through 0.13.1, more in Hive 0.14.0 and la...

Hive高级进阶与优化

小江专栏

10-18

4835

HiveServer2 参考地址：http://blog.csdn.net/czw698/article/details/44394923 1、启动hiveserver2服务 $HIVE_HOME/bin/hive --service hiveserver2 2、测试连接是否以连上不用写jdbc程序,运行 bin/beeline.sh 然后输入 !connect jdbc

Hive：select count(distinct)优化以及hive.groupby.skewindata

qq_38783098的博客

02-09

3317

问题引入数据分析师小A接到需求，需要统计当日各个省份20岁以下的日活跃用户数（去重统计user_id，即UV）现有一个Hive表存储着用户行为数据 Hive表：user_behaviour_trace_info 列描述 user_id 用户id nickname 昵称 age 年龄 province 省份 url 访问地址 access_time 访问时间 device_id 用户手机设备id 小A很顺其自然的写.

hive 中reduce个数设定

qq_41508919的博客

04-09

1410

说明：hive版本为1.2.1 hive调整reduce个数在hadoop的mapred-default.xml文件中修改设置每个job的Reduce个数 hive> set mapreduce.job.reduces = 5;

关于hive中的reduce个数的设置。

weixin_30344795的博客

08-06

205

我们都知道在进行hive的查询的时候，设置合理的reduce个数能够使计算的速度加快。具体的提高速度的方法有下面这些： (1)　　　hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）　　　　 hive.exec.reducers.max（每个任务最大的reduce数，默认为999）我们公...

hive set 参数设置

Mr_ShangHaohao的博客

03-01

1016

查询【行转列功能】 -- 打印列名 set hive.cli.print.header=true; -- 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical=true; -- 设置每行显示的列数 set hive.cli.print.row.to.vertical.num=1; -- 显示当前数据库 set hive.cli.print.current.db=true; 动态分区 -- 开启动态分区 set hive.exec.dynamic

Yarn源码分析之参数mapreduce.job.reduce.slowstart.completedmaps介绍

weixin_34187862的博客

04-30

263

mapreduce.job.reduce.slowstart.completedmaps是MapReduce编程模型中的一个参数，这个参数的含义是，当Map Task完成的比例达到该值后才会为Reduce Task申请资源，默认是0.05，其在接口MRJobConfig中表示如下： // 当Map Task完成的比例达到该值后才会为...

Hadoop Map Reduce Task默认任务数调优

caodaoxi的专栏

12-23

1013

mapred.tasktracker.map.tasks.maximum 官方解释：The maximum number of map tasks that will berun simultaneously by a tasktracker. 我的理解：一个tasktracker最多可以同时运行的map任务数量默认值：2 优化值

hive中设置maptask和reducetask的数量

Hive进阶 设置reduce Task数量

Hive进阶设置reduce Task数量