1、HDFS集群角色介绍
1.HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode)
2.NameNode负责管理整个文件系统的元数据
3.DataNode 负责管理用户的文件数据块
4.文件会按照固定的大小(blocksize,2.x以后默认是128M)切成若干块后分布式存储在若干台datanode上
5.每一个文件块可以有多个副本,并存放在不同的datanode上
6.Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量。
7.HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行。
2、客户端向HDFS写数据流程分析
假如这里有个300M的文件,需要将它上传到hdfs上
示意图: