java API 操作HDFS文件系统

1.Maven 构建java工程


2.添加HDFS相关依赖

<properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
</properties>
<dependencies>
    <!--添加hadoop依赖-->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>${hadoop.version}</version>
        <scope>provided</scope>
    </dependency>
     <!--添加单元测试的依赖-->
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.10</version>
       <scope>test</scope>
    </dependency>
</dependencies>


3.开发Java API操作HDFS文件

package com.imooc.hadoop.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.net.URI;

/**
 * hadoop HDFS java API 操作
 */
public class HDFSApp {

    FileSystem fileSystem = null;
    Configuration configuration = null;
    //hdfs地址
    public static final String HDFS_PASH = "hdfs://hadoop000:8020";
    /**
     * 创建HDFS目录
     * @throws Exception
     */
    @Test
    public void mkdir() throws Exception{
        fileSystem.mkdirs(new Path("/hdfsapi/test"));
    }

    /**
     * 创建文件
     * @throws Exception
     */
    @Test
    public void create() throws Exception{
        FSDataOutputStream outputStream = fileSystem.create(new Path("/hdfsapi/test/a.txt"));
//        FSDataOutputStream outputStream = fileSystem.create(new Path("/hdfsapi/test/b.txt"),true,1024,(short)1,1048576L);
        outputStream.write("hello hadoop".getBytes());
        outputStream.flush();
        outputStream.close();
    }

    /**
     * 查看HDFS文件的内容
     * @throws Exception
     */
    @Test
    public void cat() throws Exception{
        FSDataInputStream in = fileSystem.open(new Path("/hdfsapi/test/a.txt"));
        IOUtils.copyBytes(in,System.out,1024);
        in.close();
    }
    /**
     * 重命名
     */
    @Test
    public void rename() throws Exception {
        Path oldPath = new Path("/hdfsapi/test/a.txt");
        Path newPath = new Path("/hdfsapi/test/b.txt");
        fileSystem.rename(oldPath, newPath);
    }

    /**
     * 上传文件到HDFS
     *
     * @throws Exception
     */
    @Test
    public void copyFromLocalFile() throws Exception {
        Path localPath = new Path("C:/soft/apache/apache-maven-3.5.0/conf/settings.xml");
        Path hdfsPath = new Path("/hdfsapi/test");
        fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }
    /**
     * 上传文件到HDFS
     */
    @Test
    public void copyFromLocalFileWithProgress() throws Exception {
        InputStream in = new BufferedInputStream(
                new FileInputStream(
                        new File("D:\\001编程学习\\慕课Hadoop\\software\\spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz")));

        FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/spark-1.6.1.tgz"),
                new Progressable() {
                    public void progress() {
                        System.out.println(".");//带进度条提示信息
                    }
                });

        IOUtils.copyBytes(in,output,4096);
    }

    /**
     * 下载HDFS文件
     */
    @Test
    public void copyToLocalFile() throws Exception {
        Path localPath = new Path("D:\\h.xml");
        Path hdfsPath = new Path("/hdfsapi/test/a.xml");
        fileSystem.copyToLocalFile(false,hdfsPath, localPath,true);
    }

    /**
     * 查看某个目录下的所有文件
     */
    @Test
    public void listFiles() throws Exception {
        FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/hdfsapi"));

        for(FileStatus fileStatus : fileStatuses) {
            String isDir = fileStatus.isDirectory() ? "文件夹" : "文件";
            short replication = fileStatus.getReplication();
            long len = fileStatus.getLen();
            String path = fileStatus.getPath().toString();

            System.out.println(isDir + "\t" + replication + "\t" + len + "\t" + path);
        }

    }

    /**
     * 删除
     * recursive 递归删除
     * @throws Exception
     */
    @Test
    public void delete() throws Exception{
        fileSystem.delete(new Path("/hdfsapi/test/b.txt"),true);
    }
    @Before
    public void setUp() throws Exception{
        System.out.println("HDFSApp.setUp");
        configuration = new Configuration();
        fileSystem = FileSystem.get(new URI(HDFS_PASH),configuration,"hadoop");
    }

    @After
    public void tearDown() throws Exception{
        configuration = null;
        fileSystem = null;
        System.out.println("HDFSApp.tearDown");
    }
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,下面是关于使用Java API操作HDFS的一些基本步骤: 1. 创建Hadoop配置对象并设置HDFS文件系统的URI ```java Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://namenode:8020"); ``` 2. 创建一个FileSystem对象来操作HDFS文件系统 ```java FileSystem fs = FileSystem.get(conf); ``` 3. 创建一个Path对象,用于表示文件HDFS中的路径 ```java Path path = new Path("/user/myuser/myfile.txt"); ``` 4. 创建一个InputStream或OutputStream对象以读取或写入数据 ```java // 读取文件 InputStream in = fs.open(path); // 写入文件 OutputStream out = fs.create(path); ``` 5. 进行文件操作,例如读取或写入数据 ```java // 读取文件 byte[] buffer = new byte[1024]; int bytesRead = in.read(buffer); while (bytesRead > 0) { // 处理数据 bytesRead = in.read(buffer); } // 写入文件 byte[] data = "Hello, World!".getBytes("UTF-8"); out.write(data); ``` 6. 关闭输入或输出流以释放资源 ```java // 关闭输入流 in.close(); // 关闭输出流 out.close(); ``` 7. 关闭FileSystem对象以释放资源 ```java fs.close(); ``` 这些是使用Java API操作HDFS的基本步骤,您可以根据需要进行自定义。需要注意的是,以上代码只是示例,实际使用中可能需要更多的异常处理和其他配置。 ### 回答2: Hadoop是一个基于Java开发的分布式存储和计算框架。它的核心组件之一就是Hadoop分布式文件系统HDFS)。Hadoop使用Java API操作HDFS,在Java中使用Hadoop API可以方便地访问HDFS中的文件和目录,读写数据等操作。 Hadoop API提供了许多类和方法,使得我们可以轻松地连接到HDFS,打开文件,创建文件夹,删除文件文件夹等。一些重要的Java类包括:FileSystem、Path、Configuration以及FSDataInputStream等。我们可以使用这些类和方法进行各种操作,例如上传文件、下载文件、重命名文件、统计文件大小和使用容错机制等。 通过FileSystem类,我们可以连接到HDFS并获得HDFS操作权限。FileSystem类提供了一系列静态方法来实例化不同的FileSystem对象。我们可以使用这些对象来操作不同的文件系统类型。例如,我们可以使用FileSystem.get(URI,Configuration)方法来获得一个HDFS的对象,然后用来创建文件夹和读写文件等。 Path类是另一个重要的类,它被用来描述HDFS文件或者目录。Path类除了提供一些与文件、目录相关的方法以外,还可以提供从一个路径到另一个路径的转换,以及验证路径是否合法等功能。 Configuration类是Hadoop的配置文件,在Hadoop中所有的配置都可以在这个类中进行配置。这个类与Hadoop生态系统中其他组建紧密关联,并用来管理不同组建之间的通信。 FSDataInputStream类则是用来读取HDFS的输入流。它提供了多种读取文件的方式,包括read()和readLine()等方法。 总之,Hadoop使用Java API操作HDFS,通过Java API,我们可以使用一些基本的操作,如创建文件,读取文件,删除文件文件夹等。它们都是基于Hadoop中提供的FileSystem、Path、Configuration和FSDataInputStream等类和方法完成的。 Hadoop的Java API为开发人员提供了一种方便和高效的方式来操作Hadoop生态系统文件系统。 ### 回答3: Hadoop是一个开源的分布式计算框架,它的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce。HDFS是Hadoop用于存储和管理海量数据的文件系统,它具有高可靠性、高容错性、高扩展性等特点。而Java API是Hadoop提供的一种操作HDFS的接口,它使得Java开发者可以很方便地操作和管理HDFS中的文件和目录。 使用Java API操作HDFS的基本步骤如下: 1. 创建Configuration对象。Configuration对象封装了Hadoop集群的各种配置参数,可以通过这个对象指定连接HDFS的各项配置参数。 2. 创建FileSystem对象。FileSystem对象是操作HDFS文件系统的核心对象,通过它可以进行文件上传、下载、创建目录、删除文件操作。 3. 创建Path对象。Path对象是Hadoop中用于表示文件或目录的路径的对象,可以通过它指定要操作文件或目录的路径。 4. 执行操作。通过FileSystem对象和Path对象,可以进行各种文件操作,例如上传文件、下载文件、创建目录、删除文件等。具体操作可以参考FileSystem的API文档。 Hadoop提供的Java API较为简单易用,而且开发者可以通过扩展API来实现定制化的文件操作逻辑,可以提高文件操作效率和精度。同时,由于Java在大数据领域中拥有较大的应用群体,所以使用Java API操作HDFS能够更易于开发者进行二次开发和扩展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值