-
一、分布式文件系统
1.分布式文件系统解决问题:海量数据的高效存储
2.分布式文件系统是将文件分布存储到多个计算机节点上。(此处的计算机为普通计算机)
3.分布式文件系统的多个节点分为两类:
名称节点(主节点):文件、目录的操作(创建、删除、重命名等),数据节点与文件块的映射关系
数据节点(从节点):数据的读取与存储
-
二、HDFS概念
1.名称节点:管理分布式文件的命名空间。包含FsImage,Editlog两大核心数据结构
FsImage:维护文件系统树以及文件树中的文件和文件夹中的元数据
Editlog:记录所有针对文件的创建、删除、重命名操作
2.FsImage,Editlog两大数据结构工作过程:
名称节点启动—>FsImage的内容加载到内存—>执行EditLog中的操作(使内存中的数据源保持最新)—>创建新的FsImage+空