如何远程读取CDH的hadoop上的HDFS数据?

[b][color=olive][size=large]以前,散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据,不过当时使用的hadoop是1.2版本的,而且还是apache的,今天hadoop的最新版本已经到hadoop2.6了,而我们服务器上的hadoop是CHD5.3的版本,使用的hadoop是hadoop2.5.0版本的。

今天,散仙就以hadoop2.x的版本记录下,如何在eclipse中远程连接并读取数据,在网上搜的代码,大部分说的都比较复杂,其实如果只想连接HDFS读取一些数据话,这个是非常简单的,如果还要在Eclipse上远程提交MapReduce作业,这个就比较麻烦了,需要改动几处hadoop的源码才可以,所以建议初学者,还是在eclipse中,写好MR的类,然后打包成一个jar包上传linux并执行。


下面进入正题,在eclipse上连接hadoop,为了方便建议大家把hadoop里面所有的jar包都整理成一份目录的jar包,默认的hadoop的jar中是分散在\hadoop-2.5.0\share\hadoop目录下的各个子文件夹里,这6个目录分别是common,hdfs,httpfs,mapreduce,tools,yarn,然后把集中起来的jar中,引入项目中。

接下来,我们便可以编写我们的工具类,来读取HDFS上的数据了,注意这里并不需要把hadoop的conf下的配置文件core-site.xml,hdfs-site.xml等拷贝到项目的根目录下,而在网上看到的大部分的文章都说把hadoop的配置文件拷贝下来,其实完全没必要,我们只需要在实例化出来的Configuration中加入HDFS的端口路径即可,其他的除了hadoop的jar包外,任何配置文件都不需要,核心代码如下:
[/size][/color][/b]
	static Configuration conf=new  Configuration();
static FileSystem fs=null;
static{
try {
//默认的hadoop的fs.defaultFS的端口号为8020,这里需要跟集群里面的配置一致
conf.set("fs.defaultFS","hdfs://dnode1:8020/");
fs=FileSystem.get(conf);
} catch (IOException e) {
log.error("初始化FileSystem失败!",e);
}
}

[b][color=green][size=large]OK,只需要这简单的一行,我们就可以读取HDFS上的数据了,另外如要注意的是,需要把hadoop的对应的host也配置在win上的host文件里,避免访问文件系统出错,只要上面这一步打通,下面的对于HDFS系统上文件和目录增删改查,以及对文件内容的读取和写入,散仙在这里就不多写了,这个很简单,大家看看FileSystem这个类的Api就能很容易掌握的。

[/size][/color][/b]

[b][color=green][size=large]
如果有什么疑问,欢迎扫码关注微信公众号:我是攻城师(woshigcs)
本公众号的内容是有关大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值