大数据学习篇：hadoop深入浅出系列之HDFS（七） ——小文件解决方案

最新推荐文章于 2024-07-19 10:49:07 发布

你所有承诺

最新推荐文章于 2024-07-19 10:49:07 发布

阅读量1.2k

点赞数 1

分类专栏：大数据系列文章标签： Hadoop2 HDFS HDFS详解 HDFS小文件处理策略 HDFS性能优化 HDFS小文件

本文链接：https://blog.csdn.net/stronglyh/article/details/48751749

版权

本文探讨了HDFS中处理小文件的多种策略，包括应用程序控制、使用Hadoop Archives（HAR）、Sequence File和MapFile。HAR用于减少NameNode内存压力，但读取效率较低；SequenceFile支持压缩和切分，适合MapReduce处理；MapFile提供排序和高效检索，但需要内存存储索引。

摘要由CSDN通过智能技术生成

上一篇文章讲了HDFS的java操作，今天讲HDFS的小文件解决方案

小文件指的是那些size比HDFS的block size(默认128M)小的多的文件。任何一个文件，目录和block，在HDFS中都会被表示为一个object存储在namenode的内存中，每一个object占用150 bytes的内存空间。所以，如果有10million个文件，每一个文件对应一个block，那么就将要消耗namenode 3G的内存来保存这些block的信息。如果规模再大一些，那么将会超出现阶段计算机硬件所能满足的极限。

重点说下几种解决方案

1）应用程序自己控制
2）archive
3）Sequence File

4）Map File
5）合并小文件，如HBase部分的compact
6）*CombineFileInputFormat

一）应用程序控制

向hdfs写数据的时候，先把文件都合并在一起了，如果你再想看每个合并的文件，那是不可能的哟

<span style="font-family:KaiTi_GB2312;font-size:18px;">final Path path = new Path("/combinedfile");
final FSDataOutputStream create = fs.create(path);
final File dir = new File("C:\\Windows\\System32\\drivers\\etc");
for(File fileName : dir.listFiles()) {
System.out.println(fileName.getAbsolutePath());
final FileInputStream fileInputStream = new FileInputStream(fileName.getAbsolutePath());
final List<String> readLines = IOUtils.readLines(fileInputStream);
	for (String line : readLines) {
		create.write(line.getBytes());	
	}
	fileInputStream.close();
}
create.close();</span>