HDFS读数据流程
- HDFS的读流程底层是由java实现的,后面还会结合源码理解怎么实现的读
读数据
-
第一步,HDFS客户端创建了一个FileSystem实例对象DistributedFileSystem,FileSystem封装了与文件系统操作的相关方法。调用DistributedFileSystem对象的**open()**方法来打开希望读取的文件。
-
第二步,
-
DistributedFileSystem使用RPC调用namenode来确定文件中前几个块的块位置(分批次读取)信息。
对于每个块,namenode返回具有该块所有副本的datanode位置地址列表,并且该地址列表是排序好的,与客户端的网络拓扑距离近的排序靠前。
-
第三步,DistributedFileSystem将FSDataInputStream输入流返回到客户端以供其读取数据。FSDataInputStream类是DFSInputStream类的包装
-
第四步,客户端在FSDataInputStream输入流上调用read()方法。然后,已存储DataNode地址的DFSInputStream连接到文件中第一个块的最近的DataNode。数据从DataNode流回客户端,结果客户端可以在流上重复调用read()。
-
当该块结束时,DFSInputStream将关闭与DataNode的连接,然后寻找下一个块的最佳datanode。这些操作对用户来说是透明的。所以用户感觉起来它一直在读取一个连续的流。
-
最后,一旦客户端完成读取,就对FSDataInputStream调用close()方法。
读流程源码解读
读取数据代码
public class HDFSReadDemo {
public static void main(String[] args) throws Exception{
//设置客户端用户身份:root 具备在hdfs读写权限
System.setProperty("HADOOP_USER_NAME","root");
//创建Conf对象
Configuration conf = new Configuration();
//设置操作的文件系统是HDFS 默认是file:///
conf.set("fs.defaultFS","hdfs://node1:8020");
//创建FileSystem对象 其是一个通用的文件系统的抽象基类
FileSystem fs = FileSystem.get(conf);
//调用open方法读取文件
FSDataInputStream in = fs.open(new Path("/helloworld.txt"));
//创建本地文件输出流
FileOutputStream out = new FileOutputStream("D:\\helloworld.txt");
//IO工具类实现流对拷贝
IOUtils.copy(in,out);
//关闭连接
fs.close();
}
}
进入open方法
- 可以发现返回的是DFSInputStream
点击进入代码DFSInputStream dfsis =dfs.open
- 可以发现,DFSInputStream这个类是从DFSClient类的open方法中返回过来的。该输入流从namenode获取block的位置信息
- 在dfs.open方法中,有一个核心方法调用叫做getLocatedBlocks,见名知意,该方法是用于获取块位置信息的,getLocatedBlocks方法调用返回的结果是LocatedBlocks。
LocateBlocks
- LocatedBlocks封装了文件block的位置信息。
进入getLocatedBlocks方法
- 点击getLocatedBlocks进去之后发现,最终调用的是callGetBlockLocations
进入callGetBlockLocations
-
在callGetBlockLocations内部,最终是通过**namenode.getBlockLocations(src, start, length)**请求namenode获取文件数据块位置信息的。
-
对于每个block,namenode返回具有该块副本的datanode的地址,并且datanode根据块与客户端的距离进行排序。注意此距离指的是网络拓扑中的距离。比如客户端的本身就是一个DataNode,那么从本地读取数据明显比跨网络读取数据效率要高。
NameNode返回block信息
-
getBlockLocations方法在源码注释上也描述了这段逻辑,大意如下:
获取指定范围内指定文件的块位置。 每个块的DataNode位置按与客户端的接近程度进行排序。
返回LocatedBlocks,其中包含文件长度,块及其位置。
每个块的DataNode位置按到客户端地址的距离排序。
然后,客户端将必须联系指示的DataNode之一以获得实际数据。
客户端读取数据
- DFSClient在获取到block的位置信息之后,继续调用openInternal方法。
进入openInternal方法
客户端调用read方法
-
客户端调用DFSInputStream的read()方法,连接到文件中第一个块的最近的DataNode节点(最优的)读取数据块。
-
数据会以数据包packet为单位从数据节点通过流式接口传送到客户端。(DataTransferProtocol)。
-
当达到一个数据块的末尾时,DFSInputStream再次调用getBlockLocations获取文件的下一个数据块的位置信息,并建立和这个新的数据块的最优节点之间的连接,然后客户端就可以继续读数据。
-
这些操作对用户来说是透明的。所以用户感觉起来它一直在读取一个连续的流。
读取完毕之后
-
客户端完成文件读取后,就对FSDataInputStream调用close()方法关闭输入流。
-
如果DFSInputStream与DataNode通信时遇到错误,它将尝试该块的下一个最接近的DataNode读取数据。并将记住发生故障的DataNode,保证以后不会反复读取该DataNode后续的块。
-
此外,DFSInputStream也会通过校验和(checksum)确认从DataNode发来的数据是否完整。如果发现有损坏的块,DFSInputStream会尝试从其他DataNode读取该块的副本,也会将被损坏的块报告给namenode 。
结语:如果这篇文章有帮助到你,希望点个收藏加关注,写操作的流程分析会在之后不久更新