hive任务 处理小文件合并的参数配置

hive 输出端 小文件合并 参数配置

一. 小文件产生

使用hive过程中经常会遇到小文件问题:
①,在执行插入数据操作过程中,可能会产生小文件;
②,map-only作业,可能会产生小文件;
③,map-reduce作业,每个reduce输出一个文件,可能产生小文件

二. 小文件影响

1、 hdfs存储:存储过多小文件会产生大量元数据,会增加NameNode占有的空间,影响集群健康和拓展
2、 hive任务:默认情况下,hive输入端的处理每个小文件会启用一个map,一个map启用一个JVM去执行,启用map和JVM过程资源占用比例相对提高,影响性能。

三. 小文件处理

1、输入端:如果执行任务前,存在小文件,在执行map前进行小文件合并,通过设置参数

① set mapred.max.split.size=256000000;
设置:每个Map最大输入大小,这个值决定了合并后文件的数量;
② set mapred.min.split.size.per.node=100000000;
设置:一个节点上split的至少的大小,这个值决定了多个DataNode上的文件是否需要合并;
③ set mapred.min.split.size.per.rack=100000000;
设置:一个交换机下split的至少的大小

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值