【大数据】4：HDFS分布式文件存储

好问者

已于 2024-08-04 17:46:21 修改

阅读量1k

点赞数 22

文章标签：大数据 hdfs 分布式

于 2024-08-04 17:45:04 首次发布

本文链接：https://blog.csdn.net/2301_76936713/article/details/140908522

版权

HDFS分布式文件存储

存储：

分布式存储：每个服务器（节点）存储文件的一部分

HDFS副本块数量的配置

在前面我们了解了HDFS文件系统的数据安全，是依靠多个副本来确保的。

如何设置默认文件上传到HDFS中拥有的副本数量呢？可以在hdfs-site.xml中配置如下属性：

<property>     
<name>dfs.replication</name>     
<value>3</value> 
</property>

这个属性默认是3，一般情况下，我们无需主动配置（除非需要设置非3的数值）

如果需要自定义这个属性，请修改每一台服务器的hdfs-site.xml文件，并设置此属性。

除了配置文件外，我们还可以在上传文件的时候，临时决定被上传文件以多少个副本存储。 hadoop fs -D dfs.replication=2 -put test.txt /tmp/ 如上命令，就可以在上传test.txt的时候，临时设置其副本数为2

对于已经存在HDFS的文件，修改dfs.replication属性不会生效，如果要修改已存在文件可以通过命令 hadoop fs -setrep [-R] 2 path 如上命令，指定path的内容将会被修改为2个副本存储。 -R选项可选，使用-R表示对子目录也生效。

fsck命令检查文件的副本数

同时，我们可以使用hdfs提供的fsck命令来检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]] fsck

可以检查指定路径是否正常

-files可以列出路径内的文件状态

-files -blocks 输出文件块报告（有几个块，多少副本）

-files -blocks -locations 输出每一个block的详情

block配置

可以看到通过fsck命令我们验证了：

文件有多个副本

文件被分成多个块存储在hdfs 对于块（block），hdfs默认设置为256MB一个，也就是1GB文件会被划分为4个block存储。

块大小可以通过参数：

<property>     
<name>dfs.blocksize</name>     
<value>268435456</value>    
<description>设置HDFS块大小，单位是b</description>   
</property>

如上，设置为256MB

NameNode管理Block块

edits文件

在hdfs中，文件是被划分了一堆堆的block块，那如果文件很大、以及文件很多，Hadoop是如何记录和整理文件和block块的关系呢？答案就在于NameNode

NameNode基于一批edits和一个fsimage文件的配合完成整个文件系统的管理和维护

edits文件，是一个流水账文件，记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block

所以，会存在多个edits文件确保不会有超大edits的存在保证检索性能

fsimage文件

NameNode元数据管理维护

NameNode基于edits和FSImage的配合，完成整个文件系统文件的管理。

1. 每次对HDFS的操作，均被edits文件记录

2. edits达到大小上线后，开启新的edits记录

3. 定期进行edits的合并操作如当前没有fsimage文件，将全部edits合并为第一个fsimage 如当前已存在fsimage文件，将全部edits和已存在的fsimage进行合并，形成新的fsimage

5. 重复123流程

元数据合并控制参数

对于元数据的合并，是一个定时过程，基于：

dfs.namenode.checkpoint.period，默认3600（秒）即1小时

dfs.namenode.checkpoint.txns，默认1000000，即100W次事务

只要有一个达到条件就执行。检查是否达到条件，默认60秒检查一次，基于： dfs.namenode.checkpoint.check.period，默认60（秒），来决定

SecondaryNameNode的作用

对于元数据的合并，还记得HDFS集群有一个辅助角色：SecondaryNameNode吗？

没错，合并元数据的事情就是它干的

SecondaryNameNode会通过http从NameNode拉取数据（edits和fsimage）

然后合并完成后提供给NameNode使用。

客户端在HDFS上读、写数据的流程

数据写入流程

1. 客户端向NameNode发起请求

2. NameNode审核权限、剩余空间后，满足条件允许写入，并告知客户端写入的DataNode地址

3. 客户端向指定的DataNode发送数据包

4. 被写入数据的DataNode同时完成数据副本的复制工作，将其接收的数据分发给其它DataNode 5. 如上图，DataNode1复制给DataNode2，然后基于DataNode2复制给Datanode3和DataNode4 6. 写入完成客户端通知NameNode，NameNode做元数据记录工作