HDFS最近学习总结
一. hdfs整体运行机制:
-
客户把一个文件存入HDFS中,其实HDFS会把文件切成块进行存储,会分散存储到N台Linux系统中(存储文件块的角色是:datanode)(重要的是切块的行为是由客户端决定的)
-
一旦文件被切块切块存储,HDFS一定要有个机制,需要记录每一个文件的切块信息和每个切块具体的存储机器。(记录块信息的是namenode)
-
需要保证数据的安全性,HDFS将每一个块都在集群中存放多个副本(副本数是由存储时的客户端决定的)。
-
总结 : 一个HDFS系统是由一台运行了namenode的服务器和N台运行了datanode的服务器组成。
5.概述
- HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode)
- NameNode负责管理整个文件系统的元数据
- DataNode 负责管理用户的文件数据块
- 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上
- 每一个文件块可以有多个副本,并存放在不同的datanode上
- Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量
- HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行