MapReduce------小文件切片优化问题

最新推荐文章于 2024-03-15 15:14:29 发布

luoyunfan6

最新推荐文章于 2024-03-15 15:14:29 发布

阅读量252

点赞数

分类专栏： Hadoop 文章标签：小文件切片

本文链接：https://blog.csdn.net/luoyunfan6/article/details/98849632

版权

Hadoop 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

默认情况下，TextInputformat对任务的切片机智是按文件规划切片，不管文件多小，都会是一个单独的切片，都是交给一个maptask，如果有多个小文件，就会产生大量的maptask，处理效率底下。

解决办法：

1.从源头上解决，将文件合并后再上传到HDFS处理。

2.如果小文件已经在HDFS中，可以先写一个MapReduce程序对小文件合并

3.可以用另一种InputFormat：CombineInputFormat（它可以将多个文件划分到一个切片中），这样就可以交给一个maptask处理。

使用默认的InputFormat

使用CombineTextInputFormat

job.setInputFormatClass(CombineTextInputFormat.class);
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

luoyunfan6

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce------小文件切片优化问题

默认情况下，TextInputformat对任务的切片机智是按文件规划切片，不管文件多小，都会是一个单独的切片，都是交给一个maptask，如果有多个小文件，就会产生大量的maptask，处理效率底下。解决办法： 1.从源头上解决，将文件合并后再上传到HDFS处理。 2.如果小文件已经在HDFS中，可以先写一个MapReduce程序对小文件合并 3.可以用另一种I...
复制链接

扫一扫