Hive性能调优之合理调整Map与Reduce数量

合理设置map数量

map阶段主要涉及两个问题:小文件太多或者大文件过于负责。
对应的解决方案就是减少map数量与增加map数量。

  • 减少map数就是增加每个map处理的文件数量,用于处理大量小文件,间接加快速度。
-- CombineHiveInputFormat有对小文件合并的处理,hive2.X已经默认使用CombineHiveInputFormat
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
  • 增加map数就是减少每个map处理的文件数量,用于处理复杂度较高的文件。
    根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M这个公式,调整 maxSize 最大值。让 maxSize 最大值低于 blocksize 就可以增加 map 的个数。
    默认大小
select count(*) from ori_partitioned;
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

set mapreduce.input.fileinputformat.split.maxsize=100;

select count(*) from ori_partitioned;
Hadoop job information for Stage-1: number of mappers: 11; number of reducers: 1

map数量增加了。

合理设置reduce数量

reduce的数量不是越多越好,毕竟开启和关闭都需要资源,而且一个reduce就对应了一个输出文件,如果数量过多就会造成小文件过多。

设置reduce数据量记住两条原则:

处理大数据量利用合适的 reduce 数;
单个 reduce 任务处理数据量大小要合适;

设置reduce数量的方法有两个,但是需要基于一个公式min(每个任务最大的reduce数,总输入数据量/每个reduce处理的数据量)

-- 每个 Reduce 处理的数据量默认是 256MB
hive.exec.reducers.bytes.per.reducer=256000000
-- 每个任务最大的 reduce 数,默认为 1009
hive.exec.reducers.max=1009 

N=min(参数 2,总输入数据量/参数 1)

第二个方法就比较直接,上面计算出来后直接修改mapreduce.job.reduces

-- 设置每个 job 的 Reduce 个数(默认-1)
set mapreduce.job.reduces = 15;

最好使用第一种方法,通过调控每个reduce处理的数量来操作reduce的数量。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒 暄

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值