hadoop in action中的代码:
package bin;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class PutMerge {
public static void main(String[] args) throws IOException {
Configuration configuration=new Configuration();
FileSystem hdfs=FileSystem.get(configuration);//获得hdfs文件系统设置
FileSystem local=FileSystem.getLocal(configuration);//获得本地文件系统设置
Path inDir=new Path(args[0]);
Path hdfsFile=new Path(args[1]);
FileStatus[] inputFiles=local.listStatus(inDir);//in里面的本地文件列表,即本地文件所在目录
FSDataOutputStream outDfs=hdfs.create(hdfsFile);//生成hdfs的输出流,目的文件为设定的输出文件
int i;
for (i=0; i < inputFiles.length; i++) {//多个文件逐个读入输入流
System.out.println(inputFiles[i].getPath().getName());
FSDataInputStream inDfs=local.open(inputFiles[i].getPath());//打开本地输入流作为dfs的输入流
byte[] buffer=new byte[256];
int bytesRead=0;
while ((bytesRead=inDfs.read(buffer))>0) {
outDfs.write(buffer, 0, bytesRead);
}
inDfs.close();
}
outDfs.close();
}
}
具体的代码如何运行是一个曾经困扰我的问题,当然这是建立在我自己对程序本身理解得不够深刻的基础上的。
代码中写的很清楚在输入路径参数时如何设置,第一个参数显然为一个本地路径,是一个本机的文件夹路径,我们要完成的代码的目的是要将该本地文件夹下的所有小文件合并成一个大文件放到hdfs上从而提高hadoop处理的效能,因为hadoop擅长处理单个大文件相比多个小文件的形式来说,大文件更能够发挥hadoop框架的均分优势。该本地文件夹之中存储着我们需要放到hdfs上的小文件,我们的程序通过读取本地文件夹中的文件,通过hdfs的输入输出流将本地文件读到同一个hdfs的大文件中,(注:虽然是以输出文件形式存放在hdfs中,但要知道在hdfs中本无所谓输入输出文件,输出文件也可以作为输入文件来使用)。所以这里的第二个参数必须是hdfs
所以,我这里参数设定为:/home/xinxin/hadoop-inputfiles/in hdfs://192.168.1.10:9000/user/xinxin/output/PutMerge_out/out1.txt
自己设定的hdfs路径也许会给读者一种错觉,觉得这个程序的输出是hdfs的输出,其实不是的,这个文件的输出其实是将本地文件放到hdfs上面去,所以如果eclipse 中的Aguements这样写可能对读者来所更加利于理解。/home/xinxin/hadoop-inputfiles/in hdfs://192.168.1.10:9000/user/xinxin/input/PutMerge/sum.txt
这操作本质上是一个在hdfs上mkdir一个文件,并在其中放入本地文件夹中要处理的几个文件一样。
以上是个人理解,希望爱好者能够多交流。
-----------------------------------转载请注明出处----------------尊重原创--------------------------
----欣