《Hadoop》"呶呶不休"（四）HDFS读写流程的详解

最新推荐文章于 2021-11-30 11:04:37 发布

从明老师

最新推荐文章于 2021-11-30 11:04:37 发布

阅读量523

点赞数

分类专栏：大数据 hadoop 文章标签： HDFS的读流详解 HDFS的写流程详解

本文链接：https://blog.csdn.net/Michael__One/article/details/86499972

版权

本文深入解析HDFS的读写流程。读流程包括获取分布式文件系统对象、打开文件、读取数据块、请求下一个块及错误处理。写流程涵盖创建文件、请求Namenode、加载数据、向Datanode写数据及关闭操作。详细阐述了客户端与HDFS、Namenode和Datanode之间的交互过程。

摘要由CSDN通过智能技术生成

在这一章里，我们来具体了解一下客户端与HDFS、Namenode和Datanode之间的数据流到底是什么样子的。我们分别从两个方面来了解数据流，一个是客户端从HDFS中读数据，一个是客户端向HDFS中写数据。

一、读流程解析

我们来结合一下代码和流程图来解析一下HDFS的读流程。

public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();// 读取配置文件 core-default 和 core-site.xml
    FileSystem fs = FileSystem.get(conf);// 获取DistributedFileSystem
    // System.out.println(fs.getClass().getName());//确认类型
    Path path = new Path("/hyxy/LICENSE.txt");// 创建Path对象，指定要读取的文件
    FSDataInputStream fsinput = fs.open(path);// 向Namenode发送读取请求
    IOUtils.copyBytes(fsinput, System.out, 4096, false);// 将输入流内内的数据复制到System.out输出流中
    IOUtils.closeStream(fsinput);// 关闭流
}

1、获取分布式文件系统对象

在客户端中，我们在读取文件之前要做的工作，必然是通过FileSystem的get()方法，来加载相关配置文件，分析相关参数的值，获取DistributedFileSystem对象。DistributedFileSystem是FileSystem的子类，在加载配置文件时，会读取本地jar包内置的core-default.xml默认配置文件以及本地的core-site.xml，而本地的core-site.xml的fs.defaultFS的值为file:///，所以，还要将你在集群中etc/hadoop/core-site.xml