hdfs下载数据源码分析之open方法浅析

最新推荐文章于 2021-10-06 20:50:34 发布

泽米

最新推荐文章于 2021-10-06 20:50:34 发布

阅读量451

点赞数 1

分类专栏： hadoop 文章标签： hadoop FileSystem

本文链接：https://blog.csdn.net/a6822342/article/details/80077600

版权

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

下面我们来看看open方法。

我们之前简单分析过，这个open方法，打开这个在hdfs上的文件的时候，首先是要通过和namenode的通信来确定这个文件的块在哪些datanode上面，然后通过建立与datanode的通信来获得对应块文件流。

Open方法返回的是文件系统的数据输入流，然后调用的是抽象的FSDataInputStream的方法，这个方法就是子类实现的方法了。下面是DistributedFileSystem的open方法。

分别代表的意思是读了多少字节，写了多少字节，有多少次读操作，有多少次大的读操作，有多少次写操作。

这行代码：Pathabsf=fixRelativePart(f)，是把相对路径改为绝对路径，也就是将你传进来的关于hdfs上文件所在的路径进行针对的变化。

然后返回一个FileSystemLinkResolver，一个文件系统的连接的解析器对象，并调用解析方法去解析这个路径。

这个匿名内部类重写了两个方法，其中doCall方法是拿到流对象的关键。

这个匿名内部类的对象调用的resolver方法应该是回调了doCall方法，然后返回一个流对象，我们看这个doCall方法里面是用hdfsDataInputStream封装了dfs.open()获得的流对象，而这个dfs我们之前提到过是fs所持有的一个对象，它持有了一个可以和namenode进行通信的clientProtocal对象。

下面我们来看一下dfs.open()方法。

通过DFSInputStream的构造方法来构造一个对应文件的输入流。

然后我们来看看构造方法里面是什么：

DFSInputStream将dfsClient作为自己的一个成员。下面是DFSInputStream的一些成员。其中BlockReader就是去读各个block一个对象，里面应该是封装了一些对datanode进行数据获取的一些代码。然后locatedBlocks里面应该是存储了block的位置信息，通过dfsClient和namenode通信获得。这些成员的变量赋值都在openinfo()方法里面。