HDFS文件存储

HDFS文件存储特性

1、一个文件会被拆分成多个part存储在服务器多个节点
2、文件存在统一的block块大小管理,默认是256MB,可修改,是hdfs存储的基本单位;
3、block块可以保存备份到其他服务器节点,保障某个block块丢失或损坏时可以从备份修复

HDFS副本块数量的配置

配置文件设置

在前面我们了解了HDFS文件系统的数据安全,是依靠多个副本来确保的。
如何设置默认文件上传到HDFS中拥有的副本数量呢?可以在hdfs-site.xml中配置如下属性:

dfs.replication
3

这个属性默认是3,一般情况下,我们无需主动配置(除非需要设置非3的数值)
如果需要自定义这个属性,请修改每一台服务器的hdfs-site.xml文件,并设置此属性。

临时设置

除了配置文件外,我们还可以在上传文件的时候,临时决定被上传文件以多少个副本存储。
hadoop fs -D dfs.replication=2 -put test.txt /tmp/
如上命令,就可以在上传test.txt的时候,临时设置其副本数为2
·对于已经存在HDFS的文件,修改dfs.replication属性不会生效,如果要修改已存在文件可以通过命令
hadoop fs -setrep [-R]2 path
如上命令,指定path的内容将会被修改为2个副本存储。
-R选项可选,使用-R表示对子目录也生效。

fsck命令检查文件的副本数

同时,我们可以使用hdfs提供的fsck命令来检查文件的副本数
hdfs fsck path [-files [-blocks [-locations]]]
fsck可以检查指定路径是否正常
。-files可以列出路径内的文件状态
·-fi1es-blocks输出文件块报告(有几个块,多少副本)
·-files-blocks-locations输出每一个block的详情

block配置

可以看到通过fsck命令我们验证了:
。文件有多个副本
。文件被分成多个块存储在hdfs
对于块(block),hdfs默认设置为256MB一个,也就是1GB文件会被划分为4个block存储。
块大小可以通过参数:

dfs.blocksize
268435456
设置HDFS块大小,单位是b

如上,设置为256MB

NameNode元数据管理

hdfs通过edits文件记录hdfs中每一次文件操作,及本次操作影响的文件及其对应的blocks,edits文件也会进行拆分避免单个文件太大,同时为了方便检索,可以对多个edits文件合并,合并后得到保存一系列操作后最终状态记录的文件FSImages,hdfs会定期对edits文件进行合并,如果不存在FSImages则生成,如果已存在,则会和已存在的FSImages再进行合并操作
在这里插入图片描述edits文件和FSImages文件保存路径是通过配置文件配置的:
/export/server/hadoop/etc/hadoop/hdfs-site.xml
在这里插入图片描述

元数据合并控制参数

对于元数据的合并,是一个定时过程,基于:
·dfs.namenode.checkpoint.period,默认3600(秒)即1小时
·dfs.namenode.checkpoint.txns,默认1000000,即100W次事务
只要有一个达到条件就执行。
检查是否达到条件,默认60秒检查一次,基于:
·dfs.namenode.checkpoint.check.period,默认60(秒),来决定

元数据的合并是由SecondaryNameNode来执行的,NameNode只会写edits数据,通过http从NameNode拉数据后合并

hdfs读写数据流程

写数据流程

1.客户端向NameNode发起请求
2.NameNode审核权限、剩余空间后,满足条件允许写入,并告知客户
端写入的DataNode地址
3.客户端向指定的DataNode发送数据包
4.被写入数据的DataNode同时完成数据副本的复制工作,将其接收的数
据分发给其它DataNode
5.如图,DataNode1复制给DataNode2,然后基于DataNode2复制给
Datanode3和DataNode4
6.写入完成客户端通知NameNode,NameNode做元数据记录工作
在这里插入图片描述
NameNode不负责数据写入,只负责元数据记录和权限审批
·客户端直接向1台DataNode写数据,这个DataNode一般是离客户端
最近(网络距离)的那一个
·数据块副本的复制工作,由DataNode之间自行完成(构建一个
PipLine,按顺序复制分发,如图1给2,2给3和4)

读数据流程

1、客户端向NameNode申请读取某文件
2、NameNode判断客户端权限等细节后,允许读取,并返回此文件的block列表
3、客户端拿到block列表后自行寻找DataNode读取即可
在这里插入图片描述

  • 18
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值