Hive性能调优之合理调整Map与Reduce数量

最新推荐文章于 2023-08-07 15:52:45 发布

寒暄

最新推荐文章于 2023-08-07 15:52:45 发布

阅读量1.6k

点赞数 1

分类专栏： # ---Hive 文章标签：大数据 hive

本文链接：https://blog.csdn.net/qq_41106844/article/details/107427919

版权

---Hive 专栏收录该内容

20 篇文章

订阅专栏

本文探讨了如何合理设置MapReduce任务中的map和reduce数量，以提高处理效率。针对小文件过多或大文件处理复杂的情况，提供了调整map数量的策略。同时，讲解了设置reduce数量的原则，避免过多reduce导致的小文件问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

合理设置map数量

map阶段主要涉及两个问题：小文件太多或者大文件过于负责。
对应的解决方案就是减少map数量与增加map数量。

减少map数就是增加每个map处理的文件数量，用于处理大量小文件，间接加快速度。

-- CombineHiveInputFormat有对小文件合并的处理，hive2.X已经默认使用CombineHiveInputFormat
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

增加map数就是减少每个map处理的文件数量，用于处理复杂度较高的文件。
根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M这个公式，调整 maxSize 最大值。让 maxSize 最大值低于 blocksize 就可以增加 map 的个数。

select count(*) from ori_partitioned;
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

set mapreduce.input.fileinputformat.split.maxsize=100;

select count(*) from ori_partitioned;
Hadoop job information for Stage-1: number of mappers: 11; number of reducers: 1

map数量增加了。

合理设置reduce数量

reduce的数量不是越多越好，毕竟开启和关闭都需要资源，而且一个reduce就对应了一个输出文件，如果数量过多就会造成小文件过多。

设置reduce数据量记住两条原则：

处理大数据量利用合适的 reduce 数；
单个 reduce 任务处理数据量大小要合适；

设置reduce数量的方法有两个，但是需要基于一个公式min(每个任务最大的reduce数，总输入数据量/每个reduce处理的数据量)

-- 每个 Reduce 处理的数据量默认是 256MB
hive.exec.reducers.bytes.per.reducer=256000000
-- 每个任务最大的 reduce 数，默认为 1009
hive.exec.reducers.max=1009

N=min(参数 2，总输入数据量/参数 1)

第二个方法就比较直接，上面计算出来后直接修改mapreduce.job.reduces

-- 设置每个 job 的 Reduce 个数(默认-1)
set mapreduce.job.reduces = 15;

最好使用第一种方法，通过调控每个reduce处理的数量来操作reduce的数量。