HDFS原理

HDFS分布式文件系统介绍

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

HDFS架构

HDFS主要有NameNode,DataNode,Secondary NameNode三个部分

1、NameNode

1.1、NameNode概念
是整个文件系统的管理节点。管理文件系统的命名空间,它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。
解释:文件系统的文件目录树:这个是文件存放在hdfs里面时的目录结构类似于windows下的文件目录结构,我们可以查看 http://192.168.8.88:50070 (自己的IP)查看目录结构
文件/目录的元数据信息:就是记录数据的文件名,目录名等文件目录自身的属性信息,以及目录文件的存储信息,存储块信息(哪几个datanode上面),分块情况(存了几块),副本个数(每块几个副本)等
接收用户的操作请求:记录用户也就是client的增删改操作,这些操作记录在edits文件里面
1.2、NameNode组成:
NameNode维护的主要文件包括:metedata(内存元数据),fsimage(元数据镜像文件),edits(操作日志文件),fstime(保存最近一次checkpoint的时间)
metedata保存在内存中,fsimage和edits保存在linux磁盘中
1.3、NameNode工作特点:
Namenode始终在内存中保存metedata,用于处理“读请求” 到有“写请求”到来时,namenode会首先写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回 Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持一致,而是每隔一段时间通过合并edits文件来更新内容。Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的

2、SecondaryNameNode

HA的一个解决方案,HA即高可用性。但不支持热备。配置即可。 执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,替换旧的fsimage.以下方案为hadoop 1以及伪分布式时高可用的解决方案。

              namenode                                            secondary 
2.1、secondary namenode的工作流程:

1、secondary通知namenode切换edits文件
2、secondary从namenode获得fsimage和edits(通过http) ,同时声称edits.new文件,后面的操作记录在edits.new文件中
3、secondary将fsimage载入内存,然后开始合并edits
4、secondary将新的fsimage发回给namenode
5、namenode用新的fsimage替换旧的fsimage,将edits替换为edits.new文件
2.2、什么时候checkpiont
fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认3600秒。
fs.checkpoint.size  规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M。

3、Datanode

提供真实文件数据的存储服务。
文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block.
不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间
Replication。多复本。默认是三个。

4、文件上传步骤

上传数据同步过程:
1、客户端和NameNode发起上传文件请求
2、NameNode分配空间
3、向datanode内写入数据
3、NameNode向edits文件写日志记录客户端操作
4、若上传成功,NameNode会在内存元数据metadata保存一份元数据信息,fsimage镜像文件内不保存
5、当到达checkpiont点时,将edits文件和fsimage文件合并,生成新的fsimage文件替代原来的fsimage文件

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值