小文件转换成SequenceFile

最新推荐文章于 2020-04-30 15:17:44 发布

Summer8918

最新推荐文章于 2020-04-30 15:17:44 发布

阅读量291

点赞数

分类专栏： # hadoop

本文链接：https://blog.csdn.net/qq_38677031/article/details/103319204

版权

本文探讨了Hadoop在处理小文件时的效率问题，并提出了使用SequenceFile作为解决方案。通过将多个小文件整合到一个SequenceFile中，可以减少HDFS的Block元数据开销，提高处理效率。

摘要由CSDN通过智能技术生成

Hadoop的HDFS和MapReduce框架主要是针对大数据文件设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器，将这些小文件组织起来统一存储。HDFS 提供了两种类型的容器，分别是SequenceFile和MapFile。
这里介绍如何实现将多个小文件转换成SequenceFile。

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.net.URI;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.apache.hadoop.io.<