学习本篇博客需要有hadoop的基础,可以先看我的上一篇博客简单介绍hadoop,http://blog.csdn.net/jasonzhangoo/article/details/52718729
分布式文件系统即HDFS,在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)
HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位
块的大小远远大于普通文件系统,可以最小化寻址开销
NameNode的数据结构:
•名称节点(NameNode)负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImage和EditLog
•FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
•操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作
•名称节点记录了每个文件中各个块所在的数据节点的位置信息
primary namenode和secondary namenode的工作过程:(注意第二名称结点不是热备份,第一名称结点出现问题secondary不会立刻会补充)
在配置hadoop的时候遇到有问题,其中一个比较难搞的问题是: