8.HDFS读文件刨析（从HDFS文件上下载到本地）

SuperBigData~

已于 2023-02-12 18:38:32 修改

阅读量923

点赞数

分类专栏： # 6.HDFS 文章标签： hdfs hadoop 大数据

于 2019-10-06 17:26:31 首次发布

本文链接：https://blog.csdn.net/Jackson_mvp/article/details/102239018

版权

6.HDFS 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

从本地下载HDFS文件

1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。

2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。

3）datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做校验）。

4）客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

首先调用FileSystem对象的open方法，其实是一个DistributedFileSystem的实例。
DistributedFileSystem通过rpc获得文件的第一批block的locations，同一个block按照重复数会返回多个locations，这些locations按照hadoop拓扑结构排序，距离客户端近的排在前面。
前两步会返回一个FSDataInputStream对象，该对象会被封装DFSInputStream对象，DFSInputStream可以方便的管理datanode和namenode数据流。客户端调用read方法，DFSInputStream最会找出离客户端最近的datanode 并连接。
数据从datanode源源不断的流向客户端。
如果第一块的数据读完了，就会关闭指向第一块的datanode连接，接着读取下一块。这些操作对客户端来说是透明的，客户端的角度看来只是读一个持续不断的流。
如果第一批block都读完了， DFSInputStream就会去namenode拿下一批block的locations，然后继续读，如果所有的块都读完，这时就会关闭掉所有的流。
如果在读数据的时候， DFSInputStream和datanode的通讯发生异常，就会尝试正在读的block的排序第二近的datanode,并且会记录哪个 datanode发生错误，剩余的blocks读的时候就会直接跳过该datanode。 DFSInputStream也会检查block数据校验和，如果发现一个坏的block,就会先报告到namenode节点，然后 DFSInputStream在其他的datanode上读该block的镜像。
该设计就是客户端直接连接datanode来检索数据并且namenode来负责为每一个block提供最优的datanode， namenode仅仅处理block location的请求，这些信息都加载在namenode的内存中，hdfs通过datanode集群可以承受大量客户端的并发访问。

@Test
    public void getFileHdfs1() throws URISyntaxException, IOException, InterruptedException {

    Configuration conf = new Configuration();

    FileSystem fs = FileSystem.get(new URI("hdfs://bigdata111:9000"),conf,"root");

    FSDataInputStream fis = fs.open(new Path("/123"));

    FileOutputStream fos = new FileOutputStream(new File("D:\\input\\test\\aa.txt"));

    IOUtils.copyBytes(fis,fos,1024*5,true);


    System.out.println("下载成功");

}