大数据理论篇 No.6-理解一下HDFS数据读写流程

第1章 写数据

  1. Client向NameNode发起上传请求。

  2. NameNode检查文件是否存在等信息(权限、目录等),检查通过后,返回给Client允许上传。

  3. Client将数据切分成n个block块,block大小默认128M。将文件缓存到本地的临时文件当中。并向NameNode发起RPC请求,请求上传第一个block块。

  4. NameNode根据文件配置的副本数、机架感知,来计算并返回DataNode列表。(详见:第3章 副本策略

  5. Client再次对Block进行切分,每一个数据包大小为64k(配置文件dfs.client-write-packet-size设置其大小),然后写入一个内部数据队列中。

  6. Client选择与其最近的DataNode节点进行数据上传,列表中的DataNode节点建立pipeline通道。DataNode之间通过pipeline进行副本的拷贝。

  7. DataNode副本拷贝完成后,向前Pipeline前面的DataNode节点反馈信息。

  8. 第一个Block上传完毕后,Client再次请求NameNode上传第二个Block(4-7步)。

  9. Client上传完所有Block后,会向NameNode进行反馈。

 

第2章 读数据

  1. Client向NameNode发送文件下载请求。

  2. NameNode检查请求文件是否存在、权限等信息,检查完成后,通过元数据信息找到文件各数据块存储的DataNode位置信息,返回给Client。

    文件Block位置信息大致如下:

    blk001:hadoop100,hadoop101

    blk002:hadoop101,hadoop102

  3. Client根据Block存储的位置信息,开始进行第一个Block块的下载,从Client最近的一个DataNode节点进行下载(优先顺序:Client所在节点->同机架其他节点->不同机架的节点)。注意:如果下载失败会进行重试,超过一定次数会返回给NameNode,并从其他节点进行下载。

  4. 依次下载所有Block块。

  5. 所有块文件下载完成后,Client向NameNode反馈信息。

 

第3章 副本策略

  • 第一个副本:优先考虑网络传输效率,选择Client所在节点,前提是Client所在节点是一个DataNode节点,否则随机存放在一个DataNode节点;

  • 第二个副本:优先考虑可靠性,选择于第一个副本不同机架的一个节点;

  • 第三个副本:选择第二个副本同机架上的不同节点;

  • 其他副本:随机选择节点存储。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pezynd

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值