hive有关的MapReduce大作业的性能问题(mapper数过多)

最新推荐文章于 2023-08-02 16:21:07 发布

宝罗Paul

最新推荐文章于 2023-08-02 16:21:07 发布

阅读量4.5k

点赞数 1

分类专栏：大数据文章标签： mapreduce hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31598113/article/details/83018001

版权

Hive查询中过多小文件会导致MapReduce作业性能下降，因为每个小文件会启动一个Map任务，增加额外开销。通过调整hive.merge.mapfiles和hive.hadoop.supports.splittable.combineinputformat参数，可以合并小文件，减少Map任务数量，从而提高作业处理速度。实验显示，开启合并后，mapper数量从1968个降至193个，作业耗时从13分钟缩短到5分钟。

摘要由CSDN通过智能技术生成

Hive查询涉及的小文件过多对MR作业的危害：
Hadoop2.X中的小文件是指文件size小于HDFS的块（block）大小（例如128M）的文件。
一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件很小而且数量很多，那么每一个map task只是处理很小的input数据，会产生大量的map tasks，每一个map task都会额外增加bookkeeping开销（each of which imposes extra bookkeeping overhead）。比如说一个1GB的文件拆分成8个块大小文件（默认block size为128M），相对于拆分成10000个100KB的小文件，后者每一个小文件分别启动一个map task，那么job的处理时间将会比前者要慢几十倍甚至更多。
所以需要对输入map任务的小文件们合并一下，hive-site.xml中有几个与合并小文件有关的参数。
hive.merge.mapfiles ：是否开启合并 Map 端小文件，true是打开
hive.merge.mapredfiles ：是否开启合并 Map/Reduce 小文件，true是打开
hive.hadoop.supports.splittable.combineinputformat ：是否支持可切分的CombieInputFormat ，true是支持
在这里插入图片描述

检验——
（1&#

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

宝罗Paul CSDN认证博客专家 CSDN认证企业博客

码龄9年

94: 原创

17万+: 周排名

102万+: 总排名

57万+: 访问

: 等级

5000: 积分

95: 粉丝

217: 获赞

83: 评论

509: 收藏

私信

关注

热门文章

分类专栏

JAVA 16篇
大数据 55篇
scala & spark 8篇
python 14篇
shell脚本 7篇

最新评论

Hbase在hdfs上的archive目录占用空间过大
刚果001: list_snapshot显示为空，即没有快照，为什么archive目录也很大？怎么解决呢
shell脚本——如何获取函数的返回值
ArchyZhao: echo命令带换行，接收变量里也有换行
用python标准库difflib比较两份文件的异同
鬼杀: 那个这两个文件，不用传他们的地址吗？
shell脚本——如何获取函数的返回值
ytfrdfiw: 例子1不好的是循环变量cont，但实际又不用。 #!/bin/bash function func1(){ count=0 for i in {1..3}; do count=`expr $i+ 1` #也可用count=$((i+1)这种更为明白 done # 函数中使用return返回时，返回值的数据类型必须是数字 return $count } # 在$()的圆括号中可以执行linux命令,当然也包括执行函数 res1=$(func1) # 变量res2将会接收函数的返回值，这里是3 res2=`echo $?` if [[ $res2 == 4 ]]; then echo "func1() succeeded!" else echo "Not a right number!" fi 上述希望作者采纳，修正一下。
shell脚本——如何获取函数的返回值
容光焕发叔叔: 例子1确定执行过吗？res1=$(func1)执行后，$?的值就不是函数的返回值了吧，而是res1=$(func1)这句指令的返回值了.

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。