map和reduce数量如何设置

最新推荐文章于 2022-09-13 06:30:00 发布

木给哇啦丶

最新推荐文章于 2022-09-13 06:30:00 发布

阅读量769

点赞数

分类专栏： hive 文章标签： hive 大数据

本文链接：https://blog.csdn.net/lquarius/article/details/106342966

版权

本文介绍了如何控制Hive查询中的Map和Reduce任务数量以提高执行效率。Map的数量受mapred.min.split.size.per.node、mapred.min.split.size.per.rack和mapred.max.split.size参数影响，可以通过调整这些参数减少或增加Map任务。Reduce数量则可通过hive.exec.reducers.bytes.per.reducer、hive.exec.reducers.max和mapred.reduce.tasks来设定，具体计算公式为N=min( hive.exec.reducers.max，总输入数据量/ hive.exec.reducers.bytes.per.reducer)。文章还列举了只有单个Reduce任务的特定场景，如无group by的汇总、order by操作和笛卡尔积。

摘要由CSDN通过智能技术生成

一、控制Hive中Map和reduce的数量

Hive中的sql查询会生成执行计划，执行计划以MapReduce的方式执行，那么结合数据和集群的大小，map和reduce的数量就会影响到sql执行的效率。

除了要控制Hive生成的Job的数量，也要控制map和reduce的数量。

1、 map的数量，通常情况下和split的大小有关系

hive中默认的hive.input.format是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，对于combineHiveInputFormat,它的输入的map数量

由三个配置决定，

mapred.min.split.size.per.node，一个节点上split的至少的大小

mapred.min.split.size.per.rack 一个交换机下split至少的大小

mapred.max.split.size 一个split最大的大小

它的主要思路是把输入目录下的大文件分成多个map的输入, 并合并小文件, 做为一个map的输入. 具体的原理是下述三步:

a、根据输入目录下的每个文件,如果其长度超过mapred.max.split.size,以block为单位分成多个split(一个split是一个map的输入),每个split的长度都大于mapred.max.split.size, 因为以block为单位, 因此也会大于blockSize, 此文件剩下的长度如果大于mapred.min.split.size.per.node, 则生成一个split, 否则先暂时保留.

b、现在剩下的都是一些长度效短的碎片,把每个rack下碎片合并, 只

最低0.47元/天解锁文章

木给哇啦丶

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
map和reduce数量如何设置

一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划，执行计划以MapReduce的方式执行，那么结合数据和集群的大小，map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量，也要控制map和reduce的数量。1、map的数量，通常情况下和split的大小有关系hive中默认的hive.input.format是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，对于co..
复制链接

扫一扫

专栏目录