合理设置map数量
map阶段主要涉及两个问题:小文件太多或者大文件过于负责。
对应的解决方案就是减少map数量与增加map数量。
- 减少map数就是增加每个map处理的文件数量,用于处理大量小文件,间接加快速度。
-- CombineHiveInputFormat有对小文件合并的处理,hive2.X已经默认使用CombineHiveInputFormat
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
- 增加map数就是减少每个map处理的文件数量,用于处理复杂度较高的文件。
根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
这个公式,调整 maxSize 最大值。让 maxSize 最大值低于 blocksize 就可以增加 map 的个数。
select count(*) from ori_partitioned;
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
set mapreduce.input.fileinputformat.split.maxsize=100;
select count(*) from ori_partitioned;
Hadoop job information for Stage-1: number of mappers: 11; number of reducers: 1
map数量增加了。
合理设置reduce数量
reduce的数量不是越多越好,毕竟开启和关闭都需要资源,而且一个reduce就对应了一个输出文件,如果数量过多就会造成小文件过多。
设置reduce数据量记住两条原则:
处理大数据量利用合适的 reduce 数;
单个 reduce 任务处理数据量大小要合适;
设置reduce数量的方法有两个,但是需要基于一个公式min(每个任务最大的reduce数,总输入数据量/每个reduce处理的数据量)
-- 每个 Reduce 处理的数据量默认是 256MB
hive.exec.reducers.bytes.per.reducer=256000000
-- 每个任务最大的 reduce 数,默认为 1009
hive.exec.reducers.max=1009
N=min(参数 2,总输入数据量/参数 1)
第二个方法就比较直接,上面计算出来后直接修改mapreduce.job.reduces
-- 设置每个 job 的 Reduce 个数(默认-1)
set mapreduce.job.reduces = 15;
最好使用第一种方法,通过调控每个reduce处理的数量来操作reduce的数量。