HDFS数据写入时是构建一个pipeline,将数据先写入第一个节点,然后第一节点写给第二节点,然后第二节点写给第三节点,然后写入才完成。如果是同步的,每次写操作都必须要等待第三个节点写完并返回成功后才能写下一条数据,那么确实和直接分发给三个节点是一样的。
如果写给第一个节点后,write即可返回,进行下一次写操作了。这时,第一个节点一边在给下一个节点写数据,一边在接收client传来的数据。同时利用了输入输出带宽。假设每次从一个节点写一包数据到另一个节点耗时是t,而整个文件有n个这种数据包,则整体写入耗时为: (n + 2) * t,而直接分发给三个节点的耗时为 3 * n * t。实际上,HDFS写数据的时候只需要把数据写到缓冲区(dataQueue)就可以返回进行下一个写操作了,连写成功第一个节点都不必要,真正计算起来基本上就是数据大小/网络带宽 + 3 * 网络传输时延了。
参考:https://www.zhihu.com/question/362053709
HDFS写数据为什么不直接分发给三个节点,而是构建pipeline管道?
最新推荐文章于 2023-02-02 10:44:26 发布