1、 Hadoop的历史
-
作者Doug Cutting
-
Lucene
-
三驾马车
GFS
MapReduce
BigTable -
hadoop生态圈
hdfs
mapreduce
yarn
common
2、HDFS的存储原理
各个角色的作用
-
NameNode
1、接受客户端的读写请求
2、管理元数据
①上传的文件的权限
②上传文件的属主以及属组
③上传文件的时间
④上传文件的block数以及ID号
⑤每一个Block的位置信息是由DN在集群启动之时汇报的 不会持久化
⑥各个DN位置信息
3、管理DN
-
DataNode
1、接受客户端的读请求
2、存储block块
3、向active NN汇报心跳
4、构建pipeline
5、管理本机上block元数据
-
SNN
负责持久化
-
拉取NN节点上的edits+fsimage文件 合并
edits文件存储客户端对HDFS的操作
为什么要搞edits来存储操作呢?
因为如果不把操作存储在文件中,而是在内存中,在S