HDFS原理
1.“HDFS基本思想”、Namenode作用、DataNode作用见上篇文章
2.HDFS启动过程:
1)在NameNode主节点启动时,首先进入安全模式:
1.加载fsimage,加载到内存中
2.如果edits文件不为空,那么Namenode自己来合并
3.检查DN的健康情况
4.如果有DN挂掉了,指挥做备份
2)当集群启动之时,DN会向NN发送一些信息(Block位置、DN地址)
3)client向NN汇报当前要上传的文件信息(block数量)文件的上传时间、权限、拥有者
4)client计算block的数量,向NN请求一个ID号,请求存放block的位置
3.脑图:
HDFS的读写机制(2018-10-11更新)
client向Datanode读/写数据的详细流程
Namenode返回给client一批地址之后,这些Datanode之间会形成一个Pipeline管道,管道中流的就是block切割成的一个个packet(64k)。这种方法不会造成阻塞,提高效率。(图中黑色为写数据过程,红色为读数据过程)
fsimage和edits的合并机制(2018-10-11更新)
合并触发机制:
1.Primary Namenode的fsimage和edits文件超过3600秒未合并
2.如果edits文件超过64M
触发后
(1)、SecondaryNamenode和NameNode通信,请求其停止使用edits文件,暂时将新的写操作写到一个新的文件edit.new上来,这个操作是瞬间完成,上层写日志的函数完全感觉不到差别;
(2)、SecondaryNamenode通过HTTP GET方式从NameNode上获取到fsimage和edits文件,并下载到本地的相应目录下;
(3)、SecondaryNamenode将下载下来的fsimage载入到内存,然后一条一条地执行edits文件中的各项更新操作,使得内存中的fsimage保存最新;这个过程就是edits和fsimage文件合并;
(4)、SecondaryNamenode执行完(3)操作之后,会通过post方式将新的fsimage文件发送到NameNode节点上
(5)、NameNode将从SecondaryNamenode接收到的新的fsimage替换旧的fsimage文件,同时将edit.new替换edits文件,通过这个过程edits就变小了!