大数据面试·Hadoop篇(二)
1.2 HDFS HA
1.2.1 简单说下HDFS HA
- Datanode同时配置主备两个Namenode,并同时发送Block报告和心跳到两台Namenode。
- 确保任何时刻只有一个Namenode处于Active状态
1.2.2 DataNode宕机
- 短时间宕机:脚本恢复
- 长时间宕机:重启该DataNode
1.2.3 NameNode宕机
- 结合ZooKeeper做HDFS的自动故障转移
1.2.4 NameNode对元数据的管理
NameNode对数据的管理采用了三种存储形式:
- 内存元数据(NameSystem)
- 磁盘元数据镜像文件(fsimage镜像)
- 数据操作日志文件(可通过日志运算出元数据)(edit日志文件)
1.2.5 HDFS的checkpoint
- 每隔一定时间,会由Secondray NameNode将NameNode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint)
1.2.6 HDFS如何保证HA
- 文件副本复制机制
- DataNode心跳状态报告机制