Hadoop小文件的处理方式

最新推荐文章于 2024-07-28 16:45:11 发布

Bigdata_java

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量578

点赞数

文章标签：大数据 java

本文链接：https://blog.csdn.net/Bigdata_java/article/details/108876602

版权

一、将小文件合并成归档文件

Archive简称为HAR，是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样在减少namenode内存使用的同时，仍然允许对文件进行透明的访问
HAR是建立在HDFS基础之上的一个文件系统，因此所有fs shell命令对HAR文件均可用，只不过是文件路径格式不一样，HAR的访问路径可以是以下两种格式：
har://scheme-hostname:port/archivepath/fileinarchive
har:///archivepath/fileinarchive(本节点)
3.这种方式不足之处，比如:a. 一旦创建，Archives便不可改变。要增加或移除里面的文件，必须重新创建归档文件
b.要归档的文件名中不能有空格，否则会抛出异常，可以将空格用其他符号替换。

二.SequenceFile

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。
目前，也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案，他们的基本思路就是将小文件进行合并成一个大文件，同时对这些小文件的位置信息构建索引
文件不支持复写操作，不能向已存在的SequenceFile(MapFile)追加存储记录
当write流不关闭的时候，没有办法构造read流。也就是在执行文件写操作的时候，该文件是不可读取的

代码示例

代码如下（示例）：

@Test
/**
 * SequenceFile 读操作
 */
public void sequenceRead() throws Exception {
	final String INPUT_PATH = "hdfs://192.168.242.101:9000/big/big.seq";
	// 获取文件系统
	Configuration conf = new Configuration();
	conf.set("fs.defaultFS", "hdfs://192.168.242.101:9000");
	FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
	// 准备读取seq的流
	Path path = new Path(INPUT_PATH);
	SequenceFile.Reader reader = new SequenceFile.Reader(fileSystem, path, conf);
	// 通过seq流获得key和value
	Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), conf);
	Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), conf);
	// 循环从流中读取key和value
	long position = reader.getPosition();
	while (reader.next(key, value)) {
		// 打印当前key value
		System.out.println(key + ":" + value);
		// 移动游标指向下一个key value
		position = reader.getPosition();
	}
	// 关闭流
	IOUtils.closeStream(reader);
}
@Test
/**
 * 多个小文件合并成大seq文件
 * 
 * @throws Exception
 */
public void small2Big() throws Exception {
	final String INPUT_PATH = "hdfs://192.168.242.101:9000/small";
	final String OUTPUT_PATH = "hdfs://192.168.242.101:9000/big/big.seq";
	// 获取文件系统
	Configuration conf = new Configuration();
	conf.set("fs.defaultFS", "hdfs://192.168.242.101:9000");
	FileSystem fs = FileSystem.get(conf);
	// 通过文件系统获取所有要处理的文件
	FileStatus[] files = fs.listStatus(new Path(INPUT_PATH));
	// 创建可以输出seq文件的输出流
	Text key = new Text();
	Text value = new Text();
	SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, new Path(OUTPUT_PATH), key.getClass(),
			value.getClass());
	// 循环处理每个文件
	for (int i = 0; i < files.length; i++) {
		// key设置为文件名
		key.set(files[i].getPath().getName());
		// 读取文件内容
		InputStream in = fs.open(files[i].getPath());
		byte[] buffer = new byte[(int) files[i].getLen()];
		IOUtils.readFully(in, buffer, 0, buffer.length);
		// 值设置为文件内容
		value.set(buffer);
		// 关闭输入流
		IOUtils.closeStream(in);
		// 将key文件名value文件内容写入seq流中
		writer.append(key, value);
	}
}

三、CompositeInputFormat

用于多个数据源的join
此类可以解决多个小文件在进行mr操作时map创建过多的问题
此类的原理在于，它本质上是一个InputFormat，在其中的getSplits方法中，将他能读到的所有的文件生成一个InputSplit
使用此类需要配合自定义的RecordReader，需要自己开发一个RecordReader指定如何从InputSplit中读取数据
也可以通过参数控制最大的InputSplit大小 – CombineTextInputFormat.setMaxInputSplitSize(job, 25610241024);

Bigdata_java

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop小文件的处理方式

一、将小文件合并成归档文件Archive简称为HAR，是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样在减少namenode内存使用的同时，仍然允许对文件进行透明的访问HAR是建立在HDFS基础之上的一个文件系统，因此所有fs shell命令对HAR文件均可用，只不过是文件路径格式不一样，HAR的访问路径可以是以下两种格式：har://scheme-hostname:port/archivepath/fileinarchivehar:///archi
复制链接

扫一扫