HDFS 写文件流程

HDFS写文件流程,需要先看懂下面2张图
在这里插入图片描述在这里插入图片描述

副本备份策略

如图:
有2个机架服务器群,通过交换机进行交互,其中同一个群的不同机架都通过群内的服务器进行交互。
例子中设置的3个副本放置在2个机架服务群上,其中副本1,2绝对不在同一个机架群。这是为了防止有人把副本设置为2,然后A1,A2都分配到一个机架服务群。

流水式传输

假设一个数据的备份是3
客户端会先找nameNode获取块信息,nameNode告诉它(你去A1,A2,A3上面存把)
然后客户端与A1块建立socket连接。
把数据D1传入A1块,A1块接受完数据D1后,A1和A2建立连接,把D1传入A2,同时A1继续接受数据D2。
这是一种类似流水线的传输,可以看成变种的并行操作。

异常处理

nameNode指定客户端数据传入A1,A2,A3,流式传输按照A1传给A2,A2传给A3的方式完成传输。
如果A2挂了,会出现什么情况?
1.nameNode分配了3块去存,现在只有2块可以用,还会分配新的块去存吗?
2.在传输的过程中挂了,是要全部重新传吗?

1.nameNode虽然分配了3个块给客户端去存,但是实际这3个块存数据是成功,它是不知道的,需要dataNode接受完后再主动上报,nameNode才清楚到底有几个块是成功的,如果发现少了一个块,它会继续分配一个新的去保存。
2.client与dataNode的通信数据是通过ack package来实现的,每个package里面有chunk(512Byte基础数据加上4Byte的校验位)
通过这个校验位可以知道dataNode已经接受的数据大小,偏移量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值