Hadoop（三）hdfs概述、hdfs体系结构、hdfs java调用、RPC和HDFS调用、hdfs文件读写流程分析

L缶神

已于 2022-04-06 20:16:31 修改

阅读量783

点赞数 1

分类专栏： Hadoop 文章标签： hadoop

于 2022-04-06 20:12:43 首次发布

本文链接：https://blog.csdn.net/qq_45986314/article/details/123980361

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、HDFS概述

1、概述：

数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。

是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。

通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。容错。即使系统中有某些节点宕机，整体来说系统仍然可以持续运作而不会有数据损失【通过副本机制实现】。

分布式文件管理系统很多，hdfs只是其中一种，不合适小文件。

2、hdfs架构

二、在idea中用Java连接HDFS

Java连接HDFS在使用IDEA连接hdfs之前，需要将虚拟机中的Hadoop启动，命令是start-all.sh。

使用IDEA创建一个maven项目，在其中导入依赖

首先需要导入Hadoop客户端依赖，版本与Hadoop版本一致

在所创建的maven项目中的pom.xml中添加依赖，刷新maven让其下载依赖：

<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.6</version>
        </dependency>
    </dependencies>

新建一个Java文件，创建一个hdfs的配置文件，这里应当选择刚刚所导入依赖的配置文件

第一种连接方式：传入所要连接的hdfs的uri和配置文件，使用FileSystem.get方法获取连接

FileSystem进入到源码中查看发现是一个抽象类，所以可以查找他的具体实体类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
 
import java.net.URI;
 
public class HDFS_0_FileSystem {
    public static void main(String[] args) throws Exception{
//        创建配置文件conf
//        这里选择刚刚导入的依赖中的配置文件
        Configuration conf = new Configuration();
//        创建连接hdfs的URI,同时抛出异常
        URI uri = new URI("hdfs://master:9000");
//        使用FileSystem.get连接hdfs，传入配置文件和uri
        FileSystem fs = FileSystem.get(uri, conf,"root");
        System.out.println(fs.getClass().getName());
    }
}

这里uri的获取可以进入到/usr/local/soft/hadoop-2.7.6/etc/hadoop文件夹下的配置文件core-site.xml中查看

结果：

该实体类为DistributedFileSystem

第二种连接方式：直接使用配置文件的set方法配置所要连接的Hadoop的相关参数

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
 
public class HDFS0_FileSystem2 {
    public static void main(String[] args) throws Exception{
//        创建配置文件
        Configuration conf = new Configuration();
//        设置所要连接的hdfs的参数
        conf.set("fs.defaultFS","hdfs://master:9000");
//        获取连接
        FileSystem fs = FileSystem.get(conf);
    }
}

这样也可以实现连接hdfs

这里的set中的两个参数正是上述core-site.xml中的两个参数

1、上传文件：

将本地文件上传到Hadoop中

可以使用copyFromLocalFile方法实现上传文件到hdfs，该方法中需要传入四个参数：

delSrc – 是否强制删除src元数据 boolean类型

overwrite：是否覆盖已存在的文件 boolean类型

src – path：需要上传的本地文件路径，类型为Path对象类型

dst – path：所要上传到的hdfs上的文件路径，类型为Path对象类型

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.IOException;

public class HDFS_1_UPFile {
    public static void main(String[] args) throws IOException {
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://master:9000");
        FileSystem fs = FileSystem.get(configuration);

        /**
         * Params:
         * delSrc – whether to delete the src
         * overwrite – whether to overwrite an existing file
         * src – path
         * dst – path
         *
         * copyFromLocalFile(boolean delSrc, Path src, Path dst)
         */
        fs.copyFromLocalFile(false,true,new Path("D:\\idea.code\\HadoopCode15\\data\\sanguo.txt"),new Path("/sanguo/"));

        fs.close();
        System.out.println("application has finished");
    }
}

结果：

在hdfs中查看结果：hdfs中的sanguo目录下多了一个sanguo.txt文件

想要在上传时设置文件的副本数操作，只需将hadoop中的hdfs-site.xml文件下载，导入到IDEA的resources目录下，将该文件中的副本数更改后，在运行上传操作时会自动访问resources目录下的该文件，然后其副本数就更改为了所设置的副本数。

这里已经导入了hdfs-site.xml并且更改了内容副本数为2

可以通过set方法去配置设置相关配置文件中的副本数，将副本数设置为3并上传

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.IOException;


/**
 *  副本配置顺序：
 *      1.hdfs-site.xml(Hadoop集群自定义配置)  <  2.Resources中的 hdfs-site.xml  < 3.代码中Conf配置
 */
public class HDFS_2_UPFileReplication {
    public static void main(String[] args) throws IOException {
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://master:9000");
        configuration.set("dfs.replication","3");
        FileSystem fs = FileSystem.get(configuration);
        fs.copyFromLocalFile(false,true,new Path("D:\\idea.code\\HadoopCode15\\data\\sanguo.txt"),new Path("/sanguo/sanguo2.txt"));
        fs.close();
        System.out.println("application has finished");
    }
}

运行结果：

副本配置顺序：

1、Hadoop集群自定义配置文件

<2、Resources中的配置文件内容

<3、代码中的Configuration配置

2、下载文件：

下载文件操作同上传相似，只需要使用copyToLocalFile方法即可：

该方法的参数也有四个：

delSrc – 是否强制删除src元数据 boolean类型

src ：所要下载的hdfs上的文件的路径

dst – path：本地存放的下载文件的路径

useRawLocalFileSystem：是否将RawLocalFileSystem用作本地文件系统，一般情况下选择true

这里注意：若是不加最后一个参数，也可以实现下载文件，但大部分可能会报错，同时下载完成的文件中没有内容。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
 
public class HDFS3_DownFile {
    public static void main(String[] args) throws Exception{
        //        创建配置文件
        Configuration conf = new Configuration();
//        设置所要连接的hdfs的参数
        conf.set("fs.defaultFS","hdfs://master:9000");
//        设置副本数为2
        conf.set("dfs.replication","3");
//        获取连接
        FileSystem fs = FileSystem.get(conf);
//        下载文件
        fs.copyToLocalFile(false,new Path("/sanguo/sanguo2.txt"),new Path("D:\\idea.code\\HadoopCode\\data"),true);
//        关闭连接
        fs.close();
//        提示
        System.out.println("application is Download");
    }
}

运行结果：

在该项目下会多一个文件：

3、重命名文件：

重命名文件操作中含有两个参数：

src — path：即将被重命名的文件路径

drt — path：重命名后的文件名及路径

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
 
public class HDFS4_ReNameFile {
    public static void main(String[] args) throws Exception{
        //        创建配置文件
        Configuration conf = new Configuration();
//        设置所要连接的hdfs的参数
        conf.set("fs.defaultFS","hdfs://master:9000");
//        设置副本数为2
        conf.set("dfs.replication","3");
//        获取连接
        FileSystem fs = FileSystem.get(conf);
//        重命名文件
        fs.rename(new Path("/sanguo/sanguo2.txt"),new Path("/sanguo/sanguo3.txt"));
//        关闭连接
        fs.close();
//        提示
        System.out.println("application is Renamed");
    }
}

运行结果：

在浏览器master:50070中的结果变为：

4、删除文件：

删除文件操作提供一个delete方法来进行删除，有两个参数：

Path f：所要删除的文件的路径

boolean recursive：如果被删除的文件是一个目录，则为ture，否则为false，若不为一个目录但仍然写true会报错。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
 
public class HDFS5_DeleteFile {
    public static void main(String[] args) throws Exception{
        //        创建配置文件
        Configuration conf = new Configuration();
//        设置所要连接的hdfs的参数
        conf.set("fs.defaultFS","hdfs://master:9000");
//        设置副本数为2
        conf.set("dfs.replication","3");
//        获取连接
        FileSystem fs = FileSystem.get(conf);
//        删除文件
        fs.delete(new Path("/sanguo/sanguo3.txt"),false);
//        关闭连接
        fs.close();
//        提示
        System.out.println("application is Deleted");
    }
}

运行结果：

在浏览器master:50070中的结果变为：

5、查看文件信息：

查看文件信息提供了一个listFiles方法，该方法有两个参数：

Path f：所要查看的文件/目录路径

boolean recursive：是否递归目录，是为true，否为false

该方法不同于前面，该方法返回值为RemoteIterator迭代器类型

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;

import java.io.IOException;

public class HDFS_6_FileStatus {
    public static void main(String[] args) throws IOException {
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://master:9000");
        configuration.set("dfs.replication", "3");
        FileSystem fs = FileSystem.get(configuration);
        /**
         * Params:
         * f – is the path
         * recursive – if the subdirectories need to be traversed recursively
         * 如果需要递归 则设置为 true
         */
        RemoteIterator<LocatedFileStatus> files = fs.listFiles(new Path("/input"), true);
        while (files.hasNext()) {
            LocatedFileStatus fileStatus = files.next();
            // 获取每个block的位置信息
            BlockLocation[] blocks = fileStatus.getBlockLocations();
            // 获取block块大小
            System.out.println(fileStatus.getBlockSize());
            // 获取路径
            System.out.println(fileStatus.getPath());
            // 获取所有者
            System.out.println(fileStatus.getOwner());


            for (BlockLocation block : blocks) {
                System.out.println("hosts:" + block.getHosts());
                System.out.println("name:" + block.getNames());
                System.out.println("length:" + block.getLength());
            }
        }


        fs.close();
        System.out.println("application has finished");
    }
}

运行结果：

6、查看文件是否为目录

查看文件是否为目录提供一个fileStatus方法查看

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
 
public class HDFS7_isFile {
    public static void main(String[] args) throws Exception{
        //        创建配置文件
        Configuration conf = new Configuration();
//        设置所要连接的hdfs的参数
        conf.set("fs.defaultFS","hdfs://master:9000");
//        设置副本数为2
        conf.set("dfs.replication","3");
//        获取连接
        FileSystem fs = FileSystem.get(conf);
//        查看文件是否为目录
        FileStatus[] fileStatuses = fs.listStatus(new Path("/input"));
        for (FileStatus fileStatus : fileStatuses) {
            System.out.println(fileStatus.isFile());
            System.out.println(fileStatus.isDirectory());
        }
//        关闭连接
        fs.close();
//        提示
        System.out.println("application is Deleted");
    }
}

运行结果:将该目录下的文件全部遍历判断