HDFS:
HDFS即Hadoop的分布式文件系统,以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。
HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。
HDFS是Hadoop的应用用到的一个最主要的分布式存储系统一个HDFS集群主要由一个NameNode会和很多个Datanode的组成:Namenode会管理文件系统的元数据,而Datanode的存储了实际的数据.HDFS的体系结构在这个有详细的描述。本文档主要关注用户以及管理员怎样和HDFS进行交互.NMFS 架构设计中的图解描述了Namenode,Datanode和客户端之间的基本的交互操作。基本上,客户端联系Namenode以获取文件的元数据或修饰属性,而真正的文件I / O操作是直接和Datanode的进行交互的。
实现思路:
HDFS会将用户上传的问题切割为一小块的数据集分配给数据节点节点上,并且将分配的数据节点节点和文件信息存储到的NameNode节点上,客户端访问文件时,访问的是namenode的节点,名称节点节点将对应文件的datanome节点返回给客户端,客户端再次去的DataNode节点中取数据集
如图:
HDFS元数据维护机制(持久化):
NameNode: 存储虚拟路径,元数据
DataNode: 存储真实数据的blok(数据块)
SecondaryNameNode: 维护NameNode虚拟路径,元数据持久化问题
文档参考
链接:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html