HDFS读数据流

HDFS采用的文件读取模式是“一个文件一旦创建,写入,关闭之后就不能修改”,保证了数据的一致性,并能够实现数据访问高吞吐量。

客户端读取数据时要经过以下过程。

1.客户端通过调用分布式文件系统对象中的Open函数来读取它所需要的数据。

2.Distributed File System会通过RPC协议调用名称节点来确定请求文件块所在的位置。这里需要注意的是,名称节点只会返回调用文件中开始的几个块而不是全部返回,这些返回的数据节点会按照Hadoop定义的集群拓扑结构得出的客户端的距离,然后再进行排序。DFSInputStream对象是用来管理数据节点和名称节点之间的I/O。

3.完成以上步骤,客户端利用FSD的Read方法来开始读取数据。

4.FSD连接保存此类文件第一个数据块的最近的数据节点,并以数据流的形式读取数据;客户端多次调用Read,直到到达数据块结束位置。

5.当一个块读取完毕时,DFSDataInputStream会关闭连接,并查找储存下一个数据库距离客户端最近的数据节点。

6.客户端按照DFSDataInputStream打开和数据节点连接返回的数据流的顺序读取该块。它也会调用名称节点来检查下一组所在的数据节点的位置信息。当完成所有文件的读取后,客户端DFSDtatInputStream中调用Close函数关闭数据流。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值