大数据训练大纲(第06天)
hadoop:包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreduce
HDFS:分布式文件系统 (将系统文件内容分割为block块,分而治之,并行计算)
NameNode 内容 :保存medata信息 包括
1:文件大小和时间
2:block列表 ,block偏移量,位置信息
3:block每个副本的位置(由DataNode上报)
NameNode 作用 1: 接受客户端的读写服务
2:收集DataNode汇报的block的列表信息
3:存储和管理HDFS的元数据
SNN (SecondaryNameNode(备份)):合并元素数据文件(editsri日志文件 和 fsimage映像文件),但是只会备份1小时的日志文件,之后会与空的fsimage文件形成新的fsimage,覆盖之前的,editsri重新开始计入1小时
DN :1、存放和管理block(数据),2、往NN汇报block
元数据:除文件内容之外的。包括文件的名字、时间、所属用户、权限、大小等等,包括block的位置信息。
block(数据块):一个块的最大存储为128M ,数据文件切割之后形成一个一个的数据块。 每个块默认有3个副本。