HDFS简介
HDFS的主要特点:
1.处理超大文件
2.流式的访问数据
3.运行于廉价的商用机器集群上
HDFS的局限性:
1.不适合低延迟的数据访问
2.无法高效存储大量小文件
3.不支持多用户写入和任意修改文件。
HDFS体系结构
HDFS的相关概念
1.块
块的默认大小使64M
2.NameNode和DataNode
NameNode使Master管理集群中的执行调度,DataNode是具体执行节点。
NameNode管理文件系统的命名空间,维护文件系统的目录树和索引目录。以fsimage和edits存储于本地系统。
从NameNode可以获得每个块所在的DataNode,这些信息不是永久保存的,会在每次重启时候动态重建。
DataNode是文件系统Worker中的节点,用来执行具体任务:存储文件块,被客户端和NameNode调用。同时它会通过心跳包向NameNode发送存储的块信息。
HDFS的体系结构
HDFS采用Master/Slave架构对文件系统进行管理,一个HDFS集群是由一个NameNode和若干DataNode组成的。
1.副本存放与读取策略
HDFS采用机架感知的策略来改进数据可靠性,可用性和网络利用率。
HDFS的默认副本数为3个,一个放在同机架的相同节点,一个放在同一机架的不同节点,一个放在不同机架节点。
2.安全模式
NameNode启动后会进入一个称为安全模式的特殊状态,处于安全模式的NameNode不会进行数据块的复制。NameNode从所有DataNode接收心跳包和块状态报告。当确认副本安全之后退出安全模式。
3.文件安全
确保NameNode的安全
1.备份NameNode上持久化存储的元数据文件,然后将其存储到其他文件系统中,这种转储使同步的,原子的操作。通常的实现方法是将NameNode的元数据转储到远程NFS文件系统中
2.系统中同步运行一个Secondary NameNode,这个节点的主要作用使周期性的合并命名空间和编辑日志,避免编辑日志过大。
HDFS命令详解
通过distcp进行并行复制
HDFS的平衡
使用Hadoop归档文件
其他命令 fsck fs