一、Hadoop的历史
Hadoop作者:Lucene的作者dogcutting
Hadoop的三驾马车:GFS(Google File System)、MapReduce、BigTable
Hadoop生态圈:hdfs、mapreduce、yarn、common
二、HDFS的存储原理
2.1各个角色的作用
NameNode:
1.接受客户端的读写请求
2.管理元数据
1)上传的文件的权限
2)上传文件的时间
3)上传文件的属主以及属组
4)上传文件的block块以及ID号
5)每一个Block的位置信息是由DN在集群启动之时汇报的,不会持久化
6)各个DN位置信息
3.管理DN
DataNode
1.接受客户端的读请求
2.存储block块
3.向active的NN汇报心跳
4.构建pipeline
5.管理本机上的block元数据
SNN
负责持久化,拉去NN节点上的edits+fsimage文件合并
1.edits文件存储客户端对HDFS的操作
2.合并过程
1)文件拉取之时,在NN节点上会创建edits_new,其作用是存储在合并期间对HDFS的操作
2)基于拉来的edits文件重演,产生元数据
3)将重演产出的元数据合并到fsimage中
4)将合并后的fsimage推送