【大数据】4:HDFS分布式文件存储

HDFS分布式文件存储

存储:

目录

HDFS分布式文件存储

存储:

HDFS副本块数量的配置

fsck命令检查文件的副本数

block配置

NameNode管理Block块

edits文件

 fsimage文件

NameNode元数据管理维护

元数据合并控制参数

客户端在HDFS上读、写数据的流程

数据写入流程

数据读取流程


分布式存储:每个服务器(节点)存储文件的一部分

HDFS副本块数量的配置

在前面我们了解了HDFS文件系统的数据安全,是依靠多个副本来确保的。

如何设置默认文件上传到HDFS中拥有的副本数量呢?可以在hdfs-site.xml中配置如下属性:

<property>     
<name>dfs.replication</name>     
<value>3</value> 
</property> 

这个属性默认是3,一般情况下,我们无需主动配置(除非需要设置非3的数值)

如果需要自定义这个属性,请修改每一台服务器的hdfs-site.xml文件,并设置此属性。

除了配置文件外,我们还可以在上传文件的时候,临时决定被上传文件以多少个副本存储。 hadoop fs -D dfs.replication=2 -put test.txt /tmp/ 如上命令,就可以在上传test.txt的时候,临时设置其副本数为2

对于已经存在HDFS的文件,修改dfs.replication属性不会生效,如果要修改已存在文件可以通过命令 hadoop fs -setrep [-R] 2 path 如上命令,指定path的内容将会被修改为2个副本存储。 -R选项可选,使用-R表示对子目录也生效。

fsck命令检查文件的副本数

同时,我们可以使用hdfs提供的fsck命令来检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]] fsck

可以检查指定路径是否正常

-files可以列出路径内的文件状态

-files -blocks  输出文件块报告(有几个块,多少副本)

-files -blocks -locations 输出每一个block的详情

block配置

可以看到通过fsck命令我们验证了:

文件有多个副本

文件被分成多个块存储在hdfs 对于块(block),hdfs默认设置为256MB一个,也就是1GB文件会被划分为4个block存储。

块大小可以通过参数:

<property>     
<name>dfs.blocksize</name>     
<value>268435456</value>    
<description>设置HDFS块大小,单位是b</description>   
</property>

如上,设置为256MB

NameNode管理Block块

edits文件

在hdfs中,文件是被划分了一堆堆的block块,那如果文件很大、以及文件很多,Hadoop是如何记录和整理文件和block块的关系呢? 答案就在于NameNode

NameNode基于一批edits和一个fsimage文件的配合 完成整个文件系统的管理和维护

edits文件,是一个流水账文件,记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block

所以,会存在多个edits文件 确保不会有超大edits的存在 保证检索性能

 fsimage文件

NameNode元数据管理维护

NameNode基于edits和FSImage的配合,完成整个文件系统文件的管理。

1. 每次对HDFS的操作,均被edits文件记录

2. edits达到大小上线后,开启新的edits记录

3. 定期进行edits的合并操作 如当前没有fsimage文件,  将全部edits合并为第一个fsimage 如当前已存在fsimage文件,将全部edits和已存在的fsimage进行合并,形成新的fsimage

5. 重复123流程

元数据合并控制参数

对于元数据的合并,是一个定时过程,基于:

dfs.namenode.checkpoint.period,默认3600(秒)即1小时

dfs.namenode.checkpoint.txns,默认1000000,即100W次事务

只要有一个达到条件就执行。 检查是否达到条件,默认60秒检查一次,基于: dfs.namenode.checkpoint.check.period,默认60(秒),来决定

SecondaryNameNode的作用

对于元数据的合并,还记得HDFS集群有一个辅助角色:SecondaryNameNode吗?

没错,合并元数据的事情就是它干的

SecondaryNameNode会通过http从NameNode拉取数据(edits和fsimage)

然后合并完成后提供给NameNode使用。

客户端在HDFS上读、写数据的流程

数据写入流程

1. 客户端向NameNode发起请求

2. NameNode审核权限、剩余空间后,满足条件允许写入,并告知客户端写入的DataNode地址

3. 客户端向指定的DataNode发送数据包

4. 被写入数据的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode 5. 如上图,DataNode1复制给DataNode2,然后基于DataNode2复制给Datanode3和DataNode4 6. 写入完成客户端通知NameNode,NameNode做元数据记录工作

 关键信息点:

NameNode不负责数据写入,只负责元数据记录和权限审批

客户端直接向1台DataNode写数据,这个DataNode一般是离客户端最近(网络距离)的那一个

数据块副本的复制工作,由DataNode之间自行完成(构建一个PipLine,按顺序复制分发,如图1给2, 2给3和4)

数据读取流程

1、客户端向NameNode申请读取某文件

2、 NameNode判断客户端权限等细节后,允许读取,并返回此文件的block列表

3、客户端拿到block列表后自行寻找DataNode读取即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值