hdfs合并块_hdfs两大核心-文件上传和文件下载以及元数据合并

hdfs两大核心

1、文件上传 (写)

hadoop fs -put

1、客户端向namenode发送文件上传请求

2、namenode对发送的请求进行检查

1、目录是否存在

2、权限

3、检查父目录

之后向客户端返回检查成功的消息

3、客户端真正的提交上传文件请求,包括文件大小

4、namenode计算文件的切块个数,向上取整。获取副本个数(配置文件中hdfs-site.xml)

返回给客户端数据块id以及存储的的节点信息

节点选择优先原则:

1、距离近的优先返回

2、之后顺序同节点->同机架->同机房

5、客户端准备文件上传,首先对文件进行逻辑切块

6、真正上传文件

1、准备上传第一个数据块

2、客户端构建数据块上传的通道(pipeline),同时开启守护进程,等待pipeline构建完成的响应

pipeline构建过程:

客户端->第一个副本节点->第二个副本节点->……

3、pipeline构建完成,开始上传数据块,上传的时候是边上传边划分,以packet(64k)为单位上传,因为写数据比较慢,所以借助队列,客户端先将数据放在数据队列中。

4、客户端将数据块以packet为单位按照pipeline构建顺序传递。在节点间的传递中,内存中的数据是边向磁盘写入,边向下一个副本节点发送

5、重复以上的1-4步,知道所有的数据块上传成功

7、 整个文件上传成功,向客户端反馈,同时namenode修改元数据信息

文件上传过程中存在的问题:

1、数据传输或者构建pipeline过程中,发现有一个datanode宕机,则立即重启,如果重启后通信仍然存在问题,则将这个有问题的datanode剔除出pipeline,重新构建pipeline

2、上传中,只要保证有一个副本成功即可,失败的副本重新向namenode申请节点,namenode重新分配节点,datanode间异步复制

3、在给数据块分配节点时,为了减少传输失败的问题,将第一个副本放在客户端所在节点,至少保证一个副本上传成功

2、文件下载(读)

hadoop fs -get

1、客户端向namenode发送文件下载请求

2、namenode查询元数据进行校验,存在返回对应文件的数据块id以及对应的副本节点

3、客户端开始第一个数据块的下载,与对应的副本节点通信下载,会优先选择距离近的节点

4、第一个数据块下载完成后,进行crc校验,校验通过,才下载成功

5、重复3-4步,下载的数据会自动追加到本地的前一个数据块的末尾

6、所有的数据块下载完成,返回消息给客户端,关闭资源

文件下载过程中,发现有一个数据块节点有故障:

1、客户端立即读取其他副本所在的其他节点

2、将宕机的datanode节点汇报给namenode,之后请求节点的时候,namenode将不会优先该节点

3、元数据合并(checkpoint)

元数据

1、元数据按功能分用来存储以下内容:

1、抽象目录树

2、数据和数据块的关系

3、数据块的存储位置

2、元数据存储位置:

1、内存

2、磁盘

3、磁盘上存储元数据的文件

1、edits_0000000000000000001-0000000000000000002

元数据历史日志文件

2、edits_inprogress_0000000000000003741

正在编辑的日志文件,默认情况下1h回滚一次

3、fsimage_0000000000000003740

镜像文件,真正的元数据文件,存储了1)抽象目录树、2)数据和数据块的关系,不是全部的元数据信息

4、 fsimage_00000000000000003740.md5

加密文件

5、seen_txid:

当前日志文件的最大编号,是数据回滚的日志文件的起始编号

6、VERSION:

元数据的版本信息

元数据文件编号

fsimage文件编号从0开始,后续的编号是每次合并的edits的最大编号。fsimage最开始的文件是hdfs格式化生成的。fsimage先存在。

edits文件编号是从0开始递增

集群关闭时,内存中的元数据释放,下次启动时,内存需要从磁盘中获取最新的元数据,从磁盘中加载的是编号最大的fsimage文件+edits(fsimage的编号+1~seen_txid)这部分的edits文件,此时namenode是边加载边修改的,保证内存中的数据最新的

元数据写入

客户端进行写入操作,请求中需要修改元数据的时候

hadoop fs -mkdir|put|rm|touchz……

1、客户端发送修改元数据的请求,内存中的元数据是最新最全的

2、客户端先修改内存中的元数据,速度快

3、客户端修改磁盘中的元数据,不是直接修改fsimage,是先将执行的操作记录在edits_inprogress中,因此faimage中的数据不是最新的,每隔一段时间会将fsimage和edits文件进行合并

4、合并过程是在secondarynamenode中进行的

元数据真正的合并

合并的触发默认条件是(满足以下一条即触发):

1)时间间隔 每隔1h进行一次元数据合并的工作

dfs.namenode.checkpoint.period3600The number of seconds between two periodic checkpoints.

2)日志条数间隔 100w

dfs.namenode.checkpoint.txns1000000The Secondary NameNode or CheckpointNode will create a checkpoint of the namespace every 'dfs.namenode.checkpoint.txns' transactions, regardless of whether 'dfs.namenode.checkpoint.period' has expired.

1、secondarynamenode定期向namenode发送元数据合并的请求

2、namenode检查是否需要合并,即是否满足触发条件,当满足任意一条触发条件时,namenode向secondarynamenode发送元数据合并的请求

3、secondarynamenode真正的发送元数据合并的请求

4、namenode将edits_inprogress回滚为edits文件,同时生成一个新的edits_inprogress,继续接受客户端对元数据修改的日志,不参与合并过程

5、secondarynamenode将需要进行合并的元数据edits和fsimage文件拉取到本地,拉取的是fsimage的编号+1~最新回滚的edits的编号之间的edits文件

6、secondarynamenode将拉取到的数据加载到内存中进行合并,根据edits文件修改fsimage中的数据

7、合并完成,将fsimage文件重命名,编号是最大的edits文件所对应的编号,同时在自己的磁盘中存储一份

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值