Java实现远程HDFS的文件操作(新建、上传、下载、删除)

原创 2015年11月23日 17:22:11

  HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础篇,为了实现本地与HDFS的文件传输,主要借助Eclipse开发环境,通过java编程实现了远程HDFS的文件创建,上传,下载,删除等。

   其实对HDSF的文件操作主要有两种方式:命令行的方式JavaAPI的方式。命令行的方式简单直接,但是必须要求本地机器也是在Linux系统中已经安装了hadoop,这对习惯用windows系统的用户来说不得不安装虚拟机,然后再在虚拟机上安装Linux系统,这是一种挑。同时windows系统与虚拟机上安装的Linux系统进行文件传输也是要借助一些工具才可以实现。

   为了实现以上所遇到诸如系统不一致,手动输入命令的困扰,我们选择Java API的方式,专门的API函数,可以在非Hadoop机器上实现访问,同时与系统无关(windows、Linux甚至XP系统也可以)。Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,Hadoop类库中最终面向用户提供的接口类是FileSystem,该类封装了几乎所有的文件操作,例如CopyToLocalFile、CopyFromLocalFile、mkdir及delete等。综上基本上可以得出操作文件的程序库框架:

operator( ) {

      得到Configuration对象 

     得到FileSystem对象 

     进行文件操作 }

具体的HDFS的文件创建,上传,下载,删除等程序设计如下:

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;


public class HDFSTest01 {

/**
* @author dcx by 2015.11.19
* 新建文件 
* @param dsta
* @param conf
* @return
*/
public static boolean CreatDir(String dst , Configuration conf){
Path dstPath = new Path(dst) ;
try{
FileSystem dhfs = FileSystem.get(conf);
       dhfs.mkdirs(dstPath);
}
catch(IOException ie){
ie.printStackTrace() ;
return false ;
}
return true ;
}
 

/**
* @author dcx by 2015.11.19
* 文件上传
* @param src 
* @param dst
* @param conf
* @return
*/
public static boolean putToHDFS(String src , String dst , Configuration conf){
Path dstPath = new Path(dst) ;
try{
FileSystem hdfs = dstPath.getFileSystem(conf) ;
hdfs.copyFromLocalFile(false, new Path(src), dstPath) ;
}
catch(IOException ie){
ie.printStackTrace() ;
return false ;
}
return true ;
}

/**
*  @author dcx by 2015.11.19
* 文件下载
* @param src
* @param dst
* @param conf
* @return
*/
public static boolean getFromHDFS(String src , String dst , Configuration conf){
Path dstPath = new Path(dst) ;
try{
FileSystem dhfs = dstPath.getFileSystem(conf) ;
dhfs.copyToLocalFile(false, new Path(src), dstPath) ;
}catch(IOException ie){
ie.printStackTrace() ;
return false ;
}
return true ;
}

 
/**
* @author dcx by 2015.11.19
* 文件删除
* @param path
* @param conf
* @return
*/
public static boolean checkAndDel(final String path , Configuration conf){
Path dstPath = new Path(path) ;
try{
FileSystem dhfs = dstPath.getFileSystem(conf) ;
if(dhfs.exists(dstPath)){
dhfs.delete(dstPath, true) ;
}else{
return false ;
}
}catch(IOException ie ){
ie.printStackTrace() ;
return false ;
}
return true ;
}




/**
* @param 主函数测试
*/
public static void main(String[] args) {

boolean status = false ;
String dst1 = "hdfs://192.168.1.225:9000/EBLearn_data/new" ;
Configuration conf = new Configuration() ;
 
//java.lang.IllegalArgumentException: Wrong FS:            hdfs://192.168.1.225:9000/EBLearn_data/hello.txt, expected: file:///
    //解决这个错误的两个方案:
//方案1:下面这条命令必须加上,否则出现上面这个错误
conf.set("fs.default.name", "hdfs://192.168.1.225:9000"); // "hdfs://master:9000"  
    //方案2: 将core-site.xml 和hdfs-site.xml放入当前工程中
   status = CreatDir( dst1 ,  conf) ;
   System.out.println("status="+status) ;

   String dst = "hdfs://192.168.1.225:9000/EBLearn_data" ;
String src = "I:/hello.txt" ;

   status = putToHDFS( src ,  dst ,  conf) ;
System.out.println("status="+status) ;
    
src = "hdfs://192.168.1.225:9000/EBLearn_data/hello.txt" ;
dst = "I:/hadoop_need/" ;
status = getFromHDFS( src ,  dst ,  conf) ;
System.out.println("status="+status) ;
 
dst = "hdfs://192.168.1.225:9000/EBLearn_data/hello.txt" ;
status = checkAndDel( dst ,  conf) ;
System.out.println("status="+status) ;
}




}

版权声明:本文为博主原创文章,未经博主允许不得转载 欢迎交流~

相关文章推荐

远程HDFS文件的操作

因为手头项目涉及到远程HDFS文件的操作,所以打算学习一下相关操作。目前,网络上有很多操作HDFS文件的代码,但是它们基本上都没有描述清楚Configuration相关问题。经过摸索,终于实现远程HD...

用程序对hdfs进行操作。

调试加安装了半天,怎么也没有配置好怎么通过Eclipse直接连接hdfs,最后我还是打成一个jar包放到Linux虚拟机中执行的。 执行命令Java -jar  XXX.jar. 其中对hdfs的...

使用 FileSystem JAVA API 对 HDFS 进行读、写、删除等操作

Hadoop文件系统  基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。  Java抽象类org.apache.hadoop.fs.FileSys...
  • wisgood
  • wisgood
  • 2013年10月27日 21:09
  • 16525

远程访问hdfs

java api 远程访问hdfs

HDFS --访问(一)

Hdfs的访问方式有两种,第一:类似linux命令,hadoop shell。第二:java API方式。 先看第一种。 FS Shell cat chgrp chmod c...
  • wawmg
  • wawmg
  • 2013年03月24日 07:25
  • 12807

Hadoop-利用java API操作HDFS文件

这段时间学习了python和hadoop,主要用于数据处理方面,因此打算写几篇这方面的博客。不过不是我的原创,我也是利用前辈的工作展示给大家。把自己学到的东西,也是比较初级的东西展示给需要的同学。 ...

客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)

两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的。上代码: package mapreduce; import java.io.IOException; ...

通过本地的eclipse中的java访问远程Linux中的HDFS需要注意的问题.

要使用宿主机中的java代码访问客户机中的HDFS,需要注意的问题。 1、确保宿主机与客户机的网络是可以互相ping通的。 2、确保宿主机和客户机的防火墙都是处于关闭状态,因为需要通过的端...

Java创建hdfs文件实例

1.创建文件 过"FileSystem.create(Path f)"可在HDFS上创建文件,其中f为文件的完整路径。 package com.hebut.file; impo...

使用java实现在HDFS中创建文件夹

package com.njupt.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoo...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Java实现远程HDFS的文件操作(新建、上传、下载、删除)
举报原因:
原因补充:

(最多只允许输入30个字)