Hadoop_HDFS 小文件

最新推荐文章于 2022-04-24 19:13:56 发布

allenhaohao

最新推荐文章于 2022-04-24 19:13:56 发布

阅读量934

点赞数

分类专栏： Hadoop 文章标签： hadoop archive mapreduce 存储 file socket

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

小文件是指文件size小于HDFS上block大小的文件, 在HDFS中,任何Block,文件或者目录在内存中均以对象的形式存储, 每个对象约占150B 如果有10,000,000 个小文件每个文件占用一个block,则namenode大约需要2G的空间,存储1亿个文件则namenode需要20G空间,

访问大量小文件,需要不断从一个datanode跳到另一个datanode,严重影响性能,每一个小文件要占用一个slot,而task启动将耗费大量时间甚至大部分时间都耗费在启动task和释放task

hadoop 文件读取流程:

(1)读取文件:

1) client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在 datanode位置发送给client

2) client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。

(2)写文件:

1） client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用datanode节点
2） client将文件分块，并行存储到不同节点上datanode上，发送完成后，client同时发送信息给namenode和 datanode

3) namenode收到的client信息后，发送确信信息给datanode
4) datanode同时收到namenode和datanode的确认信息后，提交写操作。

hadoop自带解决方案:

三个目前为止 Hadoop Archive, Sequence file and CombineFileInputFormat

1)Hadoop Archive

一个高效的将小文件放入HDFS块中文件的存档工具,它能够将多个小文件打包成一个HAR文件,这样减少namenode内存使用的同时,仍然允许对文件透明访问

对某个文件 /user/hdfs/tmp 所有的小文件存档成 /user/hdfs/pro/test/test.har

hadoop archive -archiveName test.har -p /user/hdfs/tmp /user/hdfs/pro/test/

当然，也可以指定HAR的大小(使用-Dhar.block.size)。
HAR是在Hadoop file system之上的一个文件系统，因此所有fs shell命令对HAR文件均可用，只不过是文件路径格式不一样，HAR的访问路径可以是以下两种格式：
har://scheme-hostname:port/archivepath/fileinarchive
har:///archivepath/fileinarchive(本节点)
可以这样查看HAR文件存档中的文件：
hadoop dfs -ls har:///user/zoo/foo.har
输出：
har:///user/zoo/foo.har/hadoop/dir1
har:///user/zoo/foo.har/hadoop/dir2
使用HAR时需要两点，第一，对小文件进行存档后，原文件并不会自动被删除，需要用户自己删除；第二，创建HAR文件的过程实际上是在运行一个mapreduce作业，因而需要有一个hadoop集群运行此命令。

此外，HAR还有一些缺陷：第一，一旦创建，Archives便不可改变。要增加或移除里面的文件，必须重新创建归档文件。第二，要归档的文件名中不能有空格，否则会抛出异常，可以将空格用其他符号替换(使用-Dhar.space.replacement.enable=true 和-Dhar.space.replacement参数)。

（2） Sequence file

sequence file由一系列的二进制key/value组成，如果为key小文件名，value为文件内容，则可以将大批小文件合并成一个大文件。
Hadoop-0.21.0中提供了SequenceFile，包括Writer，Reader和SequenceFileSorter类进行写，读和排序操作。如果hadoop版本低于0.21.0的版本，实现方法可参见[3]。
（3）CombineFileInputFormat
CombineFileInputFormat是一种新的inputformat，用于将多个文件合并成一个单独的split，另外，它会考虑数据的存储位置。

allenhaohao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_HDFS 小文件

小文件是指文件size小于HDFS上block大小的文件, 在HDFS中,任何Block,文件或者目录在内存中均以对象的形式存储, 每个对象约占150B 如果有10,000,000 个小文件每个文件占用一个block,则namenode大约需要2G的空间,存储1亿个文件则namenode需要20G空间,访问大量小文件,需要不断从一个datanode跳到另一个datanode,严重影响性能,每一
复制链接

扫一扫