hdfs 写流程HDFS 读写流程？思维导图代码示例（java 架构)

用心去追梦

于 2024-12-25 11:55:18 发布

阅读量459

点赞数 5

文章标签： hdfs java 架构

本文链接：https://blog.csdn.net/qq_33240556/article/details/144715918

版权

HDFS（Hadoop Distributed File System）是Hadoop生态系统中的分布式文件系统，它设计用于存储大规模的数据集，并提供高吞吐量的数据访问。理解HDFS的读写流程对于优化数据处理和管理非常重要。以下是关于HDFS写流程和读流程的详细介绍、思维导图结构化描述以及Java代码示例。

HDFS 写流程

客户端请求创建文件
- 客户端通过RPC调用NameNode，请求创建一个新文件。
- NameNode检查权限并确定文件是否已存在，然后返回确认信息给客户端。
分配DataNode节点
- NameNode为文件的第一批块选择合适的DataNode列表，并将这些信息反馈给客户端。
- 选择依据包括机架感知策略、副本放置策略等。
客户端开始写入数据
- 客户端接收到DataNode列表后，直接与第一个DataNode建立连接，并开始传输数据。
- 数据以Packet的形式被分割成多个小块进行传输，每个Packet包含64KB的数据，默认情况下每经过四个Packets会发送一个Acknowledge Packet确认接收状态。
管道式写入
- 数据流经由客户端到第一个DataNode，再到后续的DataNode，形成一个“管道”。
- 每个DataNode在接收到数据后都会复制给下一个DataNode，直到所有副本都被创建完毕。
完成写入
- 当所有数据都成功写入并且所有的副本都创建完成后，客户端通知NameNode关闭文件。
- NameNode记录文件元数据更新，如文件大小、位置等。

HDFS 读流程

客户端请求打开文件
- 客户端向NameNode发起RPC请求，获取文件的部分或全部Block的位置信息。
- NameNode根据文件的元数据返回一系列Block及其所在DataNode的信息。
客户端从DataNode读取数据
- 客户端根据NameNode提供的信息，直接与最近的DataNode建立连接读取数据。
- 如果遇到故障或者网络问题，客户端可以选择其他可用的DataNode继续读取。
顺序读取
- 客户端按照Block的顺序依次从不同的DataNode读取数据。
- 对于大文件，可以同时从多个DataNode并行读取不同部分的数据，提高读取速度。
完成读取
- 客户端完成数据读取后，断开与DataNode的连接。
- 如果需要，还可以再次向NameNode请求更多Block的位置信息。

思维导图结构化描述

HDFS写流程
├── 客户端请求创建文件
│   └── NameNode检查权限并确认
├── 分配DataNode节点
│   ├── 选择合适DataNode列表
│   └── 返回信息给客户端
├── 客户端开始写入数据
│   ├── 与第一个DataNode建立连接
│   └── 数据以Packet形式传输
├── 管道式写入
│   ├── 数据流经由客户端到各个DataNode
│   └── 每个DataNode复制给下一个
└── 完成写入
    ├── 通知NameNode关闭文件
    └── NameNode记录元数据更新

HDFS读流程
├── 客户端请求打开文件
│   └── 获取Block位置信息
├── 客户端从DataNode读取数据
│   ├── 与最近的DataNode建立连接
│   └── 可选其他可用DataNode
├── 顺序读取
│   ├── 按照Block顺序读取
│   └── 并行读取不同部分数据
└── 完成读取
    ├── 断开与DataNode连接
    └── 可再请求更多Block信息

伪代码示例 (Java架构)

// 示例：使用HDFS API进行文件写入
public class HdfsWriteExample {

    public static void main(String[] args) throws Exception {
        // 初始化配置
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);

        // 创建输出流
        Path outputPath = new Path("/user/yourusername/outputfile.txt");
        FSDataOutputStream out = fs.create(outputPath, true);

        // 写入数据
        String content = "This is some text to be written into HDFS.";
        out.writeBytes(content);

        // 关闭流
        out.close();
        fs.close();
    }
}

// 示例：使用HDFS API进行文件读取
public class HdfsReadExample {

    public static void main(String[] args) throws Exception {
        // 初始化配置
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);

        // 打开输入流
        Path inputPath = new Path("/user/yourusername/inputfile.txt");
        FSDataInputStream in = fs.open(inputPath);

        // 读取数据
        byte[] buffer = new byte[1024];
        int bytesRead = in.read(buffer);
        while (bytesRead > 0) {
            System.out.print(new String(buffer, 0, bytesRead));
            bytesRead = in.read(buffer);
        }

        // 关闭流
        in.close();
        fs.close();
    }
}