Hadoop小文件问题

最新推荐文章于 2022-08-13 21:44:59 发布

K. Bob

最新推荐文章于 2022-08-13 21:44:59 发布

阅读量1.5k

点赞数

分类专栏： Hadoop 文章标签： Hadoop

本文链接：https://blog.csdn.net/ThreeAspects/article/details/89973998

版权

HDFS上的小文件问题

首先，在HDFS中，任何一个文件，目录或者block在NameNode节点的内存中均以元数据表示，而这受到NameNode物理内存容量的限制。
其次，处理小文件并非Hadoop的设计目标，HDFS的设计目标是流式访问大数据集（TB级别）。因而，在HDFS中存储大量小文件是很低效的。访问大量小文件经常会导致大量的寻找，以及不断的从一个DatanNde跳到另一个DataNode去检索小文件，严重影响性能。
最后，处理大量小文件速度远远小于处理同等大小的大文件的速度。每一个小文件要占用一个slot，而task启动将耗费大量时间甚至大部分时间都耗费在启动task和释放task上。

MapReduce上的小文件问题

Map任务（task）一般一次处理一个块大小的输入（input）（默认使用FileInputFormat）。如果文件非常小，并且拥有大量的这种小文件，那么每一个map task都仅仅处理非常小的input数据，因此会产生大量的map tasks，每一个map task都会额外增加bookkeeping开销。
Hadoop中有一些特性可以用来减轻bookkeeping开销：可以在一个JVM中允许task JVM重用，以支持在一个JVM中运行多个map task，以此来减少JVM的启动开销(通过设置mapred.job.reuse.jvm.num.tasks属性，默认为1，－1表示无限制)。另一种方法是使用MultiFileInputSplit，它可以使得一个map中能够处理多个split。<

最低0.47元/天解锁文章

K. Bob

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop小文件问题

无论是HDFS还是MapReduce，对于处理数量庞大小文件都有损效率。但是，实际中，我们又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。小文件的优化可以分为以下几种： 1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS 2、在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合成 3、在MapReduce处理时，可采用combineInpu...
复制链接

扫一扫