HDFS采用的文件读取模式是“一个文件一旦创建,写入,关闭之后就不能修改”,保证了数据的一致性,并能够实现数据访问高吞吐量。
客户端读取数据时要经过以下过程。
1.客户端通过调用分布式文件系统对象中的Open函数来读取它所需要的数据。
2.Distributed File System会通过RPC协议调用名称节点来确定请求文件块所在的位置。这里需要注意的是,名称节点只会返回调用文件中开始的几个块而不是全部返回,这些返回的数据节点会按照Hadoop定义的集群拓扑结构得出的客户端的距离,然后再进行排序。DFSInputStream对象是用来管理数据节点和名称节点之间的I/O。
3.完成以上步骤,客户端利用FSD的Read方法来开始读取数据。
4.FSD连接保存此类文件第一个数据块的最近的数据节点,并以数据流的形式读取数据;客户端多次调用Read,直到到达数据块结束位置。
5.当一个块读取完毕时,DFSDataInputStream会关闭连接,并查找储存下一个数据库距离客户端最近的数据节点。
6.客户端按照DFSDataInputStream打开和数据节点连接返回的数据流的顺序读取该块。它也会调用名称节点来检查下一组所在的数据节点的位置信息。当完成所有文件的读取后,客户端DFSDtatInputStream中调用Close函数关闭数据流。