hdfs 是hadoop 生态系统的一部分,为大数据的处理提供了分布式的存储环境。
hdfs的四大机制和两大核心:
hdfs 提供的是高容错性的分布式的数据存储方案,
四大机制
hadoop集群启动的时候各个进程启动的顺序
namenode:
datanode
secondarynamenode
心跳机制
集群节点之间必须做时间同步
- namenode负责集群上任务的分工,如果要进行分工,则必须直到各个从节点的存活状况,namenode通过datanode定期向namenode发送的心跳报告得知的,datanode默认每隔3秒发送一次心跳报告
namenode什么时候才会判定datanode死了
- datanode每隔3秒向namenode发送一次心跳报告,当namenode连续十次没有收到datanode的心跳报告,则认为datanode可能死了,这时namenode主动向datanode发送一个检查,发送一次检查的时间默认是5min,namenode 给自己两次机会,如果一次检查没有返回信息,这时namenode 会再次进行检查,如果两次检查都没有返回信息,则会判定当前的datanode已经死了,也就是说namenode最终判断datanode死了需要2 * 5min + 3s*10 = 630s
通过配置可以改变这个时间
安全模式
集群启动的时候namenode做了什么
- 元数据
1、抽象目录树
2、数据和块的映射关系
3、数据块存储的位置信息