我的hadoop程序之---------------PutMerge--------

hadoop in action中的代码:


package bin;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class PutMerge {
	public static void main(String[] args) throws IOException {
		Configuration configuration=new Configuration();
		FileSystem hdfs=FileSystem.get(configuration);//获得hdfs文件系统设置
		FileSystem local=FileSystem.getLocal(configuration);//获得本地文件系统设置
		
		Path inDir=new Path(args[0]);
		Path hdfsFile=new Path(args[1]);
		
		FileStatus[] inputFiles=local.listStatus(inDir);//in里面的本地文件列表,即本地文件所在目录
		FSDataOutputStream outDfs=hdfs.create(hdfsFile);//生成hdfs的输出流,目的文件为设定的输出文件
		int i;
		for (i=0; i < inputFiles.length; i++) {//多个文件逐个读入输入流
			System.out.println(inputFiles[i].getPath().getName());
			FSDataInputStream inDfs=local.open(inputFiles[i].getPath());//打开本地输入流作为dfs的输入流
			byte[] buffer=new byte[256];
			int bytesRead=0;
			while ((bytesRead=inDfs.read(buffer))>0) {
				outDfs.write(buffer, 0, bytesRead);
			}
			inDfs.close();
		}
		outDfs.close();
	}
}

具体的代码如何运行是一个曾经困扰我的问题,当然这是建立在我自己对程序本身理解得不够深刻的基础上的。

代码中写的很清楚在输入路径参数时如何设置,第一个参数显然为一个本地路径,是一个本机的文件夹路径,我们要完成的代码的目的是要将该本地文件夹下的所有小文件合并成一个大文件放到hdfs上从而提高hadoop处理的效能,因为hadoop擅长处理单个大文件相比多个小文件的形式来说,大文件更能够发挥hadoop框架的均分优势。该本地文件夹之中存储着我们需要放到hdfs上的小文件,我们的程序通过读取本地文件夹中的文件,通过hdfs的输入输出流将本地文件读到同一个hdfs的大文件中,(注:虽然是以输出文件形式存放在hdfs中,但要知道在hdfs中本无所谓输入输出文件,输出文件也可以作为输入文件来使用)。所以这里的第二个参数必须是hdfs

所以,我这里参数设定为:/home/xinxin/hadoop-inputfiles/in  hdfs://192.168.1.10:9000/user/xinxin/output/PutMerge_out/out1.txt 

自己设定的hdfs路径也许会给读者一种错觉,觉得这个程序的输出是hdfs的输出,其实不是的,这个文件的输出其实是将本地文件放到hdfs上面去,所以如果eclipse 中的Aguements这样写可能对读者来所更加利于理解。/home/xinxin/hadoop-inputfiles/in  hdfs://192.168.1.10:9000/user/xinxin/input/PutMerge/sum.txt


这操作本质上是一个在hdfs上mkdir一个文件,并在其中放入本地文件夹中要处理的几个文件一样。

以上是个人理解,希望爱好者能够多交流。


-----------------------------------转载请注明出处----------------尊重原创--------------------------

                                                                                                                                             ----欣

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值