六、Hadoop基本原理总结—HDFS

一、主要组成模块

    Hadoop Distributed File System(HDFS):分布式文件存储系统。

    MapReduce:并行计算框架(可以自定义计算逻辑的部分)

    Yet Another Resource Negotiator(YARN):另一种资源协调者(顾名思义,Hadoop1.x采用的不是这一个资源管理器)

二、HDFS概述及应用场景

1、HDFS特点:

  • 高容错性:认为硬件总是不可靠的。

  • 高吞吐量:为大量数据访问的应用提供高可用吞吐量支持。

  • 大文件存储:支持存储TB-PB级别的数据。

  • HDFS适合做:大文件存储、流式数据访问。

  • HDFS不适合做:大量小文件、随机写入、低延迟读取

2、HDFS系统架构

HDFS架构包含三个部分:(NameNode,DateNode,Client)

  • NameDode:用于存储、生成文件系统的元数据、运行一个实例。

  • DateNode:用于存储实际的数据,将自己管理的数据块上报给NameNode,运行多个实例。

  • Client:支持业务访问HDFS,从NameNode,DateNode获取数据返回给业务。多个实例,和业务一起运行。

3、HDFS数据写入流程

(1)、业务应用调用HDFS Client提供的API创建文件,请求写入。

(2)、HDFS Client联系NameNode,NameNode在元数据中创建文件节点。

(3)、业务应用调用write API写入文件。

(4)、HDFS Client收到业务数据后,从NameNode获取到数据块编号、位置信息后,联系DateNode,并将要写入数据的DateNode建立起流水线。完成后,客户端再通过自有协议写入数据到DateNode1,再由DateNode1复制到NateNode2,DateNode3.

(5)、写完的数据,将返回确认信息给HDFS Client。

(6)、所有数据确认完成后,业务调用HDFS CLient关闭文件。

(7)、业务调用close,flush后HDFS Client联系NameNode,确认数据写完成,NameNode持久化元数据。

4、HDFS数据读取流程

(1)、业务调用HDFS Client提供的API打开文件。

(2)、HDFS Client 联系 NmaeNode,获取到文件信息(数据块、DateNode位置信息)。

(3)、业务应用调用read API读取文件。

(4)、HDFS Client根据从NmaeNode获取到的信息,联系DateNode,获取相应的数据块。(Client采用就近原则读取数据)。

(5)、HDFS Client会与多个DateNode通讯获取数据块。

(6)、数据读取完成后,业务调用close关闭连接

三、元数据持久化

(1)、备NameNode通知主NameNode生成新的日志文件,以后的日志写到Editlog.new中,并获取旧的Editlog。

(2)、备NameNode从注NameNode上获取FSImage文件及位于JournalNode上面的旧Editlog。

(3)、备NmaeNode将日志和旧的元数据合并,生成新的元数据FSImage.ckpt。

(4)、备NameNode将元数据上传到主NameNode。

(5)、主NameNode将上传的原书记进行回滚。循环步骤1.

四、HDFS高可靠性(HA)

1、HA解决的是一个热备份的问题。

HDFS的高可靠性(HA)架构在基本架构上增加了一下组件:

(1)、 ZooKeeper:分布式协调,主要用来存储HA下的状态文件,主备信息、ZK个数建议3个及以上且为奇数个。

(2)、NameNode主备:NameNode主备模式,主提供服务,备合并元数据并作为主的热备。

(3)、ZKFC(Zookeeper Failover Controller)用于控制NameNode节点的主备状态。

(4)、JN(JournalNode)日志节点:用于共享存储NameNode生成的Editlog。

2、处于待命状态的名称节点和处于活状态的名称节点,它们元数据的两个方面的信息是怎么同步的

处于待命状态的名称节点当中,它的两方面元数据,一个就是Editlog,它是通过共享存储系统来获得同步的,处于活跃状态的名称节点已发生变化,马上写入到共享存储系统,然后这共享存储系统会通知待命的名称节点把它取走,这样可以保证Editlog上两者可以保持同步。对于映射表信息而言,也就是一个文件包含几个块,这些块被保存到哪个数据节点上面。这种映射信息,它的 实时的维护是通过底层数据节点,不断同时向活跃名称节点和待命节点名称节点汇报来进行维护的。这就是它的基本原理。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值