本文结合HDFS的副本和分块从宏观上描述HDFS存入文件的整个流程。HDFS体系中包含Client、NameNode、DataNode、SeconderyNameode四个角色,其中Client是客户端,NN负责管理,DN负责存储、SN协助管理。
先来看一个官网上的图
# 图 0 -HDFS的体系结构
HDFS的副本存储有如下规则:
1.client将第一副本放到最靠近的一台DN
2.第二副本优先放到另一个机架
3.以此类推,尽量保证副本放在不同的机架
由于副本和分块机制的存在,当从本地文件系统向HDFS上传文件时,其内部的流程相对比较复杂,可以通过下图及步骤说明进行理解。
# 图 1-1 -hdfs副本存储机制(3副本)
A.对于可存于单块的小文件:
1.client向NN(NameNode)发起存储请求,
2.NN查找自身是否已有相应的文件,
3.若无则,NN向clie