hadodop之HDFS 第一章 hdfs原理

最新推荐文章于 2020-05-05 22:34:24 发布

资深数据库专家

最新推荐文章于 2020-05-05 22:34:24 发布

阅读量174

点赞数 1

分类专栏： Hadoop项目 CDH项目文章标签： HDFS原理

本文链接：https://blog.csdn.net/qq_34401027/article/details/92381650

版权

Hadoop项目同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

CDH项目

2 篇文章 0 订阅

订阅专栏

1、HDFS架构：
name node
Data node
Secondary name node

1）客户端选读取数据。和Name node 获取元数据。
2）Name node 查询元数据信息。元数据信息放在二维数据库如mysql。内存和磁盘分别保存一份。

3）返回Metadata数据给Name node，然后返回给客户端。

4）数据就近原则。
5） Name node的水平复制

2、元数据存储细节 Name Node Metadata
1）存放在内存和磁盘各一份。
文件名称,文件存放了几份，分别存放存放在那个位置上。

2）类似仓库管理的账本。
NameNOde (FileName,replicas,block-ids,id2host)
/test/a.log ,3,{blk_1,blk_2},[{blk_1:[h0,h1,h2]},{blk_2:[h0,h1,h2,h3]}]

3、Name node
1）主要作用。
整个文件系统的管理阶段。维护整个文件系统的文件目录树。
文件/目录的元信息和每个文件对应的数据块列表。接受用户的操作请求。

2）涉及的文件保存在linux的文件系统中。
fsimage 元数据镜像文件。存放某一时段Name node 内存元数据信息。

edits : 操作日志文件
fstime 保存最近一次checkpoint的时间。----类似系统的还原点。

hdsf dfs -ls -R /

ls
cd tmp/
ls
cd dfs/
cd current

3） Name node工作特点：

内存保存metedat。用于处理读请求。
当写请求过来的时候，name node 首先会写editlog到磁盘，即向edits文件写日志，成功返回后，
才会修改内存，并向客户端返回。

-- V1.0和伪分布式的工作原理
Hadoop会维护一个fsimage文件，也就是metadata的镜像文件。但是不是保存一致。
每隔一段时间通过合并edits文件更新内容。Secondary name node就是用来合并
fsimage和edits的文件来更新Name Node的metedata的。

4、Secondary Name Node
HA
下载fsimage和edits的文件，合并，推送Name Node的metedata的。
工作流程：
1）通知 name node 切换edits
2)获取 fsimage 和edits
3) 将fsimage载入内存并合并edits
4）将新的fsiamge发送给name node
5）将新的fsiamege 替换旧的fsiamge

V1.0 name node 和 Secondary Name Node 需要分开部署

1） client 上传文件，首先发送请求信息给 Name Node
2）Name node 返回信息给client
3）给Data Node 写入数据。
4） Name Node 需要edits操作日志，记录成功或者失败的信息。
如果成功，edits +1
内存中的metaData+1
Fsiamge 没有+1
5) 同步Fsianme的时间：
第一种： checkpoint 3600秒
第二种： edits文件的最大值，一旦超过这个值，则强制checkpoint

5、 Data Node
提供真实文件数据的存储服务。
1）HDFS默认Block 大小为 128MB，以256MB文件为例

2）HDFs 如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间
3）Replication 多副本。默认三个。---是对块的副本