大数据—Hadoop(五)_ HDFS_04、HDFS的读写流程

1、HDFS写数据流程

1.1 剖析文件写入

讲解:客户端将数据写入hdfs,底层是怎么操作的

在这里插入图片描述

客户端

1、客户端会先创建一个 Distributed FileSystem (分布式的文件系统),对上传文件按照文件块拆分后,一块一块上传

NameNode

2、检查上传的客户端是否有权限

  • 每个上传的文件夹都有所属的用户和用户组,如果没有权限,直接拒绝,报没有权限异常

3、检查上传的客户端目录是否存在

4、没有问题,回复可以上传

客户端

5、请求返回第一个block的存储 DataNode 节点

NameNode

6、根据副本数,返回对应的DN节点,如hadoop102、hadoop103、hadoop104,表示使用这三个节点进行存储

  • 副本节点的优先级后面会详细讲解
    • a、本地节点
    • b、其他机架一个节点
    • c、其他机架的另一个节点

客户端

7、创建数据流(FSDataOutputStream),往外写数据

8、先选择第一个dn1,开始传输数据,dn1发给dn2,dn2发给dn3,当下游接收到数据后会返回确认收到数据的应答

  • 传输单元64k的Packet(512b的chunk和4b的chunksum)

1.2 网络拓扑-节点距离计算

图例

在这里插入图片描述

  • 从里到外
    • n-0 到 n-0
      • 表示在同一个节点
    • n-0 到 n-1
      • 表示在同一个机架
    • d1-n0 到 d2-n0
      • 表示在不同的机房

1.3 机架感知(副本存储节点选择)

  • 第一个副本存在本地
    • 距离最近速度最快
  • 第二个副本在另一个机架的随机节点
    • 保证可靠性
  • 第三个副本在第二个副本所在机架的随机节点
    • 速度最快
      • 第三个副本是第二个副本传给他的

2、HDFS读数据流程

讲解:客户端下载hdfs数据,底层是怎么操作的

在这里插入图片描述
客户端

1、客户端会先创建一个 Distributed FileSystem (分布式的文件系统),请求下载文件

NameNode

2、检查下载的客户端是否有权限

  • 每个下载的文件夹都有所属的用户和用户组,如果没有权限,直接拒绝,报没有权限异常

3、检查下载文件是否存在

4、没有问题,回复可以上传,返回目标文件的元数据

  • 元数据如: block1在哪三台节点上,block2又在哪三台节点上

客户端

5、创建数据流(FSDataInputStream),请求下载数据

6、综合距离和节点负载均衡能力评估,下载数据

  • 如:在一个最近的节点上下载block1,读取完毕后,又在另一个节点上下载block2
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据之负

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值