Hive调优之map&reduce数目

本文详细探讨了Hive中map任务数量的确定方法,包括HiveInputFormat和CombineHiveInputFormat两种格式的影响,并指出小文件较多时可能会导致过多的map任务,浪费资源。同时,解释了map数据读取过程中的行分割处理。在reduce数目确定方面,介绍了Hive如何基于数据量和配置参数动态估算reduce任务数量,并讨论了过多或过少reduce任务的潜在问题。最后,提出了对map和reduce数量调整的思考,强调平衡资源利用和处理效率的重要性。
摘要由CSDN通过智能技术生成

map数目确定方法

Map数目的划分是由输入文件大小,个数等因素决定的,另外不同的文件输入格式切分map数目的方法也是不一样的,我们来看下Hive使用的两种输入格式的Map数目确定方法。

HiveInputFormat

MapTask的数目主要有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改),控制这些变量的参数如下:

set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
# 文件分割最大大小
set mapreduce.input.fileinputformat.split.maxsize=536870912; // goalSize
# 文件分割最小值
set mapreduce.input.fileinputformat.split.minsize=236870912
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值