hadoop 文件合并

最新推荐文章于 2023-05-25 19:52:10 发布

dandingyy

最新推荐文章于 2023-05-25 19:52:10 发布

阅读量1.2w

点赞数

分类专栏： hadoop学习文章标签： hadoop path string exception class mapreduce

本文链接：https://blog.csdn.net/dandingyy/article/details/7490046

版权

本文介绍了如何利用Hadoop的getmerge工具将HDFS上的多个文件合并到本地，并讨论了两种将合并后的文件上传到HDFS的方法：直接上传大文件和使用MapReduce任务将小文件打包成SequenceFile。

摘要由CSDN通过智能技术生成

众所周知，Hadoop对处理单个大文件比处理多个小文件更有效率，另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。

1，getmerge

hadoop有一个命令行工具getmerge，用于将一组HDFS上的文件复制到本地计算机以前进行合并

参考：http://hadoop.apache.org/common/docs/r0.19.2/cn/hdfs_shell.html

使用方法：hadoop fs -getmerge <src> <localdst> [addnl]

接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。addnl是可选的，用于指定在每个文件结尾添加一个换行符。

多嘴几句：调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。

2.putmerge

将本地小文件合并上传到HDFS文件系统中。

一种方法可以现在本地写一个脚本，先将一个文件合并为一个大文件，然后将整个大文件上传，这种方法占用大量的本地磁盘空间；

另一种方法如下，在复制的过程中上传。参考：《hadoop in action》

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

//参数1为本地目录，参数2为HDFS上的文件
public class PutMerge {
	
	public static void put