hive有关的MapReduce大作业的性能问题(mapper数过多)

Hive查询中过多小文件会导致MapReduce作业性能下降,因为每个小文件会启动一个Map任务,增加额外开销。通过调整hive.merge.mapfiles和hive.hadoop.supports.splittable.combineinputformat参数,可以合并小文件,减少Map任务数量,从而提高作业处理速度。实验显示,开启合并后,mapper数量从1968个降至193个,作业耗时从13分钟缩短到5分钟。
摘要由CSDN通过智能技术生成

Hive查询涉及的小文件过多对MR作业的危害:
Hadoop2.X中的小文件是指文件size小于HDFS的块(block)大小(例如128M)的文件。
一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件很小而且数量很多,那么每一个map task只是处理很小的input数据,会产生大量的map tasks,每一个map task都会额外增加bookkeeping开销(each of which imposes extra bookkeeping overhead)。比如说一个1GB的文件拆分成8个块大小文件(默认block size为128M),相对于拆分成10000个100KB的小文件,后者每一个小文件分别启动一个map task,那么job的处理时间将会比前者要慢几十倍甚至更多。
所以需要对输入map任务的小文件们合并一下,hive-site.xml中有几个与合并小文件有关的参数。
hive.merge.mapfiles :是否开启合并 Map 端小文件,true是打开
hive.merge.mapredfiles :是否开启合并 Map/Reduce 小文件,true是打开
hive.hadoop.supports.splittable.combineinputformat :是否支持可切分的CombieInputFormat ,true是支持

在这里插入图片描述

检验——
(1&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值