Hadoop 文件读流程

1)流程图

    

2)流程解读

    1. 客户端执行命令(或者代码读取),调用的是dfs的FileSystem.open的方法,open传的是文件路径 

    2. 根据文件路径去NN找,NN把block块和所在位置的信息的映射关系,返回给一个FSDataInoputStream的对象

    3. 客户端拿到FSDataInoputStream对象(即block块地址列表),根据最近的网段去循环读取block块

    4. 读取完后会有一个check的动作,check完之后会关闭与DN的连接

    5. 以130M文件为例,会有2个block,6个副本,分布在不同机器上。 

    6. 当拿第一个block的机器是有问题的,会去拿第二个副本的机器上拿,依次类推

    7. 假如全部副本都损坏,即文件损坏,不能读取了

    8. 当所有block都读取完后,会拼装成一个完整的数据流,再转换成文件的内容

    9.最后close,关闭输入流

3)客户端操作

    对于客户端,操作是透明的,用户体现就是连续的数据流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值