HDFS写数据为什么不直接分发给三个节点,而是构建pipeline管道?

HDFS数据写入时是构建一个pipeline,将数据先写入第一个节点,然后第一节点写给第二节点,然后第二节点写给第三节点,然后写入才完成。如果是同步的,每次写操作都必须要等待第三个节点写完并返回成功后才能写下一条数据,那么确实和直接分发给三个节点是一样的。
如果写给第一个节点后,write即可返回,进行下一次写操作了。这时,第一个节点一边在给下一个节点写数据,一边在接收client传来的数据。同时利用了输入输出带宽。假设每次从一个节点写一包数据到另一个节点耗时是t,而整个文件有n个这种数据包,则整体写入耗时为: (n + 2) * t,而直接分发给三个节点的耗时为 3 * n * t。实际上,HDFS写数据的时候只需要把数据写到缓冲区(dataQueue)就可以返回进行下一个写操作了,连写成功第一个节点都不必要,真正计算起来基本上就是数据大小/网络带宽 + 3 * 网络传输时延了。
参考:https://www.zhihu.com/question/362053709

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值