Hive调优之map&reduce数目

最新推荐文章于 2022-08-29 19:55:02 发布

小白数据猿

最新推荐文章于 2022-08-29 19:55:02 发布

阅读量810

点赞数

分类专栏： Hadoop&Hive 文章标签： hadoop 大数据 hive

本文链接：https://blog.csdn.net/lidongmeng0213/article/details/110930032

版权

本文详细探讨了Hive中map任务数量的确定方法，包括HiveInputFormat和CombineHiveInputFormat两种格式的影响，并指出小文件较多时可能会导致过多的map任务，浪费资源。同时，解释了map数据读取过程中的行分割处理。在reduce数目确定方面，介绍了Hive如何基于数据量和配置参数动态估算reduce任务数量，并讨论了过多或过少reduce任务的潜在问题。最后，提出了对map和reduce数量调整的思考，强调平衡资源利用和处理效率的重要性。

摘要由CSDN通过智能技术生成

map数目确定方法

Map数目的划分是由输入文件大小，个数等因素决定的，另外不同的文件输入格式切分map数目的方法也是不一样的，我们来看下Hive使用的两种输入格式的Map数目确定方法。

HiveInputFormat

MapTask的数目主要有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)，控制这些变量的参数如下:

set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
# 文件分割最大大小
set mapreduce.input.fileinputformat.split.maxsize=536870912; // goalSize
# 文件分割最小值
set mapreduce.input.fileinputformat.split.minsize=236870912