利用CombineFileInputFormat处理小文件

本文转自我的原创blog: http://www.javali.org/document/deal_small_files_with_combinefileinputformat_in_mapreduce.html

在之前的文章里hadoop处理小文件问题 使用hadoop archive files来解决海量小文件引起的资源及性能问题。该方案需人工进行维护,适用管理人员的操作,而且har文件一旦创建,Archives便不可改变,所以适合一次性写入大量小文件的场景。

hadoop自带的还有另一种解决方案:CombineFileInputFormat

CombineFileInputFormat是一个抽象类,必须要自定义继承它才能使用。

然后启动Job时就能直接使用MyCombineInputFormat了

另外影响Map数的还有三个参数

这样启动能极大的减少map数,计算性能提升的相当明显。

想了解CombineFileInputFormat是如何减少map数的,可以参见这篇博文: 深度分析如何在Hadoop中控制Map的数量

【完】

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值