(Hdoop Distributed File System )分布式文件系统原理;HDFS文件系统基本架构和运行机制

(自己学习笔记)
1、(Hdoop Distributed File System )分布式文件系统原理;HDFS文件系统基本架构和运行机制
原理:解决大数据的存储问题,横跨在多台计算机的存储系统,存储在分布式文件系统上的数据会
自动的分布在不同的节点上
基本架构:分布式文件系统是主从结构,包括NameNode(主节点,只有一个)、DataNode(从节点,可以有多个)
NameNode的功能:
接收处理用户的操作请求
维护文件系统的目录结构
管理文件与Block块之间的关系,管理Block块与DataNode之间的关系
DataNode的功能
文件被分成Block存储在磁盘上
文件会有多个副本存储在不同的DataNode上
SecondaryNameNode
辅助性NameNode
周期性把Edits文件和fsimage镜像文件进行合并
HDFS运行机制
1、HDFS中数据流的读写机制
写入:Client向NameNode发起RPC请求;NameNode检查要写入的文件是否存在、创建者是否有权进行操作;通过后客户端开始写入,客户端将数据切分成多个packets,并以data queue的形式管理写入,并且向NameNode申请Blocks,获取DataNode列表;以Pipline的形式将packet写入所有的replicas;写入成功后返回一个ack queue,客户端接收到返回的ack packet,会从data queue里移除相应的packet;如果出现故障,关闭对应的pipline,将出故障的datanode移除,NameNode重新分配一个datanode;写入后,数据流调用close方法,关闭数据流

读取:Client向Namenode发起RPC请求;NameNode会返回有该block块的DataNode地址;Client会选取离客户端最近DataNode进行读取,当读完列表的block后,且文件还没读完,会继续从NameNode里获取block列表;如果读取时发生错误,客户端会通知NameNode,再从下一个拥有该block拷贝的DataNode进行读取,每读完一个Block都会进行checksum验证文件的完整性
2、HA机制
在一个典型的HDFS(HA)集群中,配置两个NameNodes,一个处于Active,一个处于Standby状态,ActiveNameNode负责客户端的所有请求,StandybyNameNode就是个备机,当ActiveNameNode发生故障,StandbyNameNode能够快速切换
3、Federation机制
HDFS可同时存在多个NameNode,这些NameNode分管一部分数据,且共享所有的DataNode的资源(提高扩展性、提升吞吐性率,良好的隔离性)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值