HDFS读写流程

读文件的流程

1.客户端通过调用FileSystem对象的open方法 打开希望读取的文件

FileSystem有三个静态的工产方法 public static FileSystem get(Configuration conf),public static FileSystem get(URI uri, Configuration conf), public staitc FileSystem get(URI uri, Configuration conf, String user)

Configuration对象封装了客户端和服务器的配置

2.DistributedFileSystem通过远程调用RPC来 调用namenode,通过这种方式来的到文件起始块的位置,然后根据数据节点距离客户端的距离来排序

3.open()方法返回FSDataInputStream对象(支持文件定位的输入流)让客户端方便的读取数据。该类会被封装成DFSInputStream,该对象管理者namenode和datanode的IO。客户端对这个输入流调用read()方法

4.DFSInputStream存储着文件起始几个块的datanode的地址,选择距离最近的一个节点来读取数据。通过反复的调用read方法把数据传输到客户端

5.到达块的末端时,DFSInputStream关闭与该datanode的连接,然后寻找下一个块的最佳的datanode

6.客户端完成读取对FSDataInputStream调用close方法

写文件的流程

1.客户端通过对DistributedFileSystem对象调用create方法来创建新文件

2.DistributedFileSysetem对namenode远程调用RPC,在文件系统的命名空间创建一个文件,此时系统中还没有相应的数据块。namenode执行各种不同的检查以确保该文件不存在以及客户端有新建该文件的权限。如果检查通过,namenode会创建新文件记录,否则返回异常

3.调用create方法返回FSDataOutputStream封装成DFSOutPutStream,负责namenode和datanode的通信。DFSOutPutstream把数据分成一个个的数据包,并写入数据队列。

4.DataStreamer处理数据队列,为数据选出合适存储数据的一组节点,并据此要求namenode分配新的数据块。这一组节点构成一个管线(默认三个节点)。DataStreamr将数据包流时传输到管线中1个datanode,第一个datannod将数据包发送到第二个打datanode,....第三个

5.DFSOutputStream也维护着一个内部队列来等待datanode的确认回执,等到管道中所有的datanode数据包才会从确认队列中删除

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值