大数据入门之Hadoop生态系统(4) -- HDFS shell命令以及Java API操作

1.前置要求

大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建

前面已经搭建好了Hadoop和HDFS的环境,接下来我们用shell命令对文件系统进行操作。

2.HDFS shell常用命令

常用的有:ls、mkdir、put、get、rm,和Linux的命令差不多。

我们首先启动HDFS,启动方式前面也说过了。因为我们前面已经配置了Hadoop的环境变量。所以我们就可以开始操作了。

我们在任意目录下,输入“hadoop fs -ls /”,我们就可以查看到HDFS的“/“(根目录)目录下的内容了。

如果我们想把虚拟机的文件传到HDFS中,只需要输入“hadoop fs -put ~/data/hello.txt  /”,这句话的意思就是:把         ~/data/hello.txt   这个文件传到HDFS的“/”目录下。然后我们用“hadoop fs -ls /”命令可以查看一下是否传输成功了。如果我们想查看这个文件的内容,可以输入"hadoop fs -text /hello.txt",这句话就是,查看上传到HDFS中的根目录下的hello.txt的内容。

如果我们想在HDFS上创建一个目录,“hadoop fs -mkdir /test”,这句话就是在根目录下创建一个test文件夹,我们可以再用“hadoop fs -ls /”来查看一下是否创建成功。如果你要递归创建文件夹,“hadoop fs -mkdir -p /a/b”,这句话可以让我们先在根目录下创建a文件夹,然后继续在a目录下创建一个b文件夹。

如果你要查看HDFS中所有文件(文件夹)的路径,"hadoop fs -lsr /",这句话就是递归查出根目录下的所有内容(文件和文件夹)。

如果你想把HDFS上的文件拷到本地,“hadoop fs -get /hello.txt”,这句话就是把hello.txt拷贝到本地当前的目录中。

如果想删除HDFS上的文件,“hadoop fs -rm /hello.txt”,删除文件夹的话,"hadoop fs -rm -R /test",递归删除/test文件夹下的所有内容。

3.Java API对HDFS的操作

注意啦,这个时候我们就不用虚拟机了,而是在本地(Windows)中进行Java代码的编写,不过要保证我们虚拟机上HDFS系统是开启的。我们这里写Java选用的是IDE是 IntelliJ IDEA,然后Maven版本是3.5.2。

我们首先新建一个Maven项目,勾选maven-archetype-quickstart即可。生成项目之后,我们先进入pom.xml文件中,修改一下这个文件的部分内容。修改为如下即可。其他的暂时不动。

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
    </properties>

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
        </repository>
    </repositories>

    <dependencies>
        <!-- 添加hadoop依赖 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
            <scope>provided</scope>
        </dependency>

        <!-- 添加单元测试依赖 -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>

    </dependencies>

注意:如果我们maven里面用的是阿里的仓库,那么还需要改maven的settings.xml文件,修改为如下。否则可能会无法从导入cdh版本的相关依赖。

  <mirrors>
    <mirror>
      <id>nexus-aliyun</id>
      <mirrorOf>*,!cloudera</mirrorOf>
      <name>Nexus aliyun</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public</url>
    </mirror>
  </mirrors>

好了,接下来我们写几个测试方法(这是一个测试类哦)。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.net.URI;

/**
 * Hadoop HDFS Java API 操作
 */
public class HDFSApp {

    //这里的ip就是你虚拟机的ip,也可以写虚拟机ip所对应的主机名
    public static final String HDFS_PATH = "hdfs://192.168.6.130:8020";
    //public static final String HDFS_PATH = "hdfs://hadoop000:8020";  //也是可以的

    FileSystem fileSystem = null;
    Configuration configuration = null;

    //在调用测试方法之前调用,加载相关配置信息
    //"Kiku"这个参数特别重要,它是你虚拟机当前用户的用户名,因为我的是Kiku用户,所以是Kiku
    //其实就是你的Linux系统终端指令的第一个"@"符号前面的那个单词
    @Before
    public void setUp() throws Exception {
        System.out.println("HDFSApp.setUp");
        configuration = new Configuration();
        fileSystem = FileSystem.get(new URI(HDFS_PATH), configuration, "Kiku");
    }

    //在测试结束之后调用,清空资源
    @After
    public void tearDown() throws Exception {
        configuration = null;
        fileSystem = null;
        System.out.println("HDFSApp.tearDown");
    }

    /**
     * 创建HDFS目录
     * @throws Exception
     */
    @Test
    public void mkdir() throws Exception {
        fileSystem.mkdirs(new Path("/hdfsapi/test"));
    }

    /**
     * 创建文件
     * @throws Exception
     */
    @Test
    public void create() throws Exception {
        FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/a.txt"));
        output.write("hello hadoop".getBytes());
        output.flush();
        output.close();
    }

    /**
     * 查看HDFS文件的内容
     * @throws Exception
     */
    @Test
    public void cat() throws Exception {
        FSDataInputStream in = fileSystem.open(new Path("/hdfsapi/test/b.txt"));
        IOUtils.copyBytes(in, System.out, 1024);
        in.close();
    }

    /**
     * 文件重命名
     * @throws Exception
     */
    @Test
    public void rename() throws Exception {
        Path oldPath = new Path("/hdfsapi/test/a.txt");
        Path newPath = new Path("/hdfsapi/test/b.txt");
        fileSystem.rename(oldPath, newPath);
    }

    /**
     * 上传文件到HDFS
     * @throws Exception
     */
    @Test
    public void copyFromLocalFile() throws Exception {
        Path localPath = new Path("D:/bigdata/data.txt");
        Path hdfsPath = new Path("/hdfsapi/test/");
        fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }

    /**
     * 上传文件到HDFS,带有进度条
     * @throws Exception
     */
    @Test
    public void copyFromLocalFileWithProgress() throws Exception {
        InputStream in = new BufferedInputStream(
                new FileInputStream(
                        new File("D:/VMwareworkstation1252.zip")));

        FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/VMware.zip"),
                new Progressable() {
                    public void progress() {
                        System.out.print(".");  //带进度提醒信息
                    }
                });
        IOUtils.copyBytes(in, output, 4096);
    }

    /**
     * 下载HDFS文件到本地
     * @throws Exception
     */
    @Test
    public void copyToLocalFile() throws Exception {
        Path localPath = new Path("D:/helloHadoop.txt");
        Path hdfsPath = new Path("/hdfsapi/test/b.txt");
        fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);
    }

    /**
     * 查看某个目录下的所有文件
     * @throws Exception
     */
    @Test
    public void listFiles() throws Exception {
        FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/hdfsapi/test"));
        for (FileStatus fileStatus : fileStatuses) {
            String isDir = fileStatus.isDirectory() ? "文件夹" : "文件";
            short replication = fileStatus.getReplication();  //副本数量
            long len = fileStatus.getLen();  //大小
            String path = fileStatus.getPath().toString();
            System.out.println("isDir:" + isDir + "\treplication:" + replication + "\tlen:" + len + "\tpath:" + path);
        }
    }

    /**
     * 删除文件,默认参数为true,进行递归删除
     * @throws Exception
     */
    @Test
    public void delete() throws Exception {
        fileSystem.delete(new Path("/hdfsapi/test/"), true);
    }
}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值