黑猴子的家：CombineTextInputFormat 切片机制

最新推荐文章于 2024-03-17 19:27:35 发布

黑猴子的家

最新推荐文章于 2024-03-17 19:27:35 发布

阅读量253

点赞数

分类专栏： MapReduce HDFS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28652401/article/details/83508001

版权

MapReduce 同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

39 篇文章 0 订阅

订阅专栏

关于大量小文件的优化策略

1、默认情况

默认情况下TextInputformat对任务的切片机制是按文件规划切片，不管文件多小，
都会是一个单独的切片，都会交给一个maptask，这样如果有大量小文件，
就会产生大量的maptask，处理效率极其低下。

2、优化策略

（1）最好的办法，在数据处理系统的最前端（预处理/采集），将小文件先合并成大文件，再上传到HDFS做后续分析。

（2）补救措施：如果已经是大量小文件在HDFS中了，可以使用另一种InputFormat来做切片
（CombineTextInputFormat），它的切片逻辑跟TextFileInputFormat不同,
它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个maptask。

（3）优先满足最小切片大小，不超过最大切片大小
        CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 128m
        CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m
    举例：0.5m+1m+0.3m+5m=2m + 4.8m=2m + 4m + 0.8m

3、具体实现步骤

// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class)
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

黑猴子的家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

黑猴子的家 CSDN认证博客专家 CSDN认证企业博客

码龄9年

1545: 原创

3万+: 周排名

206万+: 总排名

72万+: 访问

: 等级

5388: 积分

445: 粉丝

178: 获赞

112: 评论

692: 收藏

私信

关注

热门文章

分类专栏

最新评论

黑猴子的家：华为 OpenEuler-20.03-LTS 配置UKUI图形化界面
cqwuliu: 远程有界面吗
黑猴子的家：Centos 7.x gcc 4.8.5 升级到 gcc 4.9.4
m0_75017410: make install也是报错。 [root@localhost build]# make install make[1]: 进入目录“/root/software/gcc-4.9.0/build” /bin/sh ../mkinstalldirs /usr/local /usr/local make[2]: 进入目录“/root/software/gcc-4.9.0/build/fixincludes” make[2]: *** 没有规则可以创建目标“install”。停止。 make[2]: 离开目录“/root/software/gcc-4.9.0/build/fixincludes” make[1]: *** [install-fixincludes] 错误 2 make[1]: 离开目录“/root/software/gcc-4.9.0/build” make: *** [install] 错误 2 [root@localhost build]#
黑猴子的家：Centos 7.x gcc 4.8.5 升级到 gcc 4.9.4
m0_75017410: 为什么 make -j4后会出现以下情况。 ranlib .libs/libgmp.a rm -fr .libs/libgmp.lax creating libgmp.la (cd .libs && rm -f libgmp.la && ln -s ../libgmp.la libgmp.la) make[5]: 离开目录“/root/software/gcc-4.9.0/build/gmp” make[4]: 离开目录“/root/software/gcc-4.9.0/build/gmp” make[3]: 离开目录“/root/software/gcc-4.9.0/build/gmp” make[2]: 离开目录“/root/software/gcc-4.9.0/build” make[1]: *** [stage1-bubble] 错误 2 make[1]: 离开目录“/root/software/gcc-4.9.0/build” make: *** [all] 错误 2 [root@localhost build]#
黑猴子的家：Centos 7.x gcc 4.8.5 升级到 gcc 4.9.4
ironSid: 得到子目录是吗
黑猴子的家：Centos 7.x gcc 4.8.5 升级到 gcc 4.9.4
MoXiaoJie_55: me too

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。