(Hdoop Distributed File System )分布式文件系统原理;HDFS文件系统基本架构和运行机制

最新推荐文章于 2021-07-31 15:01:51 发布

NLP_Song

最新推荐文章于 2021-07-31 15:01:51 发布

阅读量931

点赞数 1

分类专栏： HDFS 文章标签：大数据分布式文件系统文件系统存储系统计算机

本文链接：https://blog.csdn.net/qq_36273293/article/details/52886640

版权

HDFS 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

（自己学习笔记）
1、(Hdoop Distributed File System )分布式文件系统原理;HDFS文件系统基本架构和运行机制
原理：解决大数据的存储问题，横跨在多台计算机的存储系统，存储在分布式文件系统上的数据会
自动的分布在不同的节点上
基本架构：分布式文件系统是主从结构，包括NameNode(主节点，只有一个)、DataNode(从节点，可以有多个)
NameNode的功能：
接收处理用户的操作请求
维护文件系统的目录结构
管理文件与Block块之间的关系，管理Block块与DataNode之间的关系
DataNode的功能
文件被分成Block存储在磁盘上
文件会有多个副本存储在不同的DataNode上
SecondaryNameNode
辅助性NameNode
周期性把Edits文件和fsimage镜像文件进行合并
HDFS运行机制
1、HDFS中数据流的读写机制
写入：Client向NameNode发起RPC请求；NameNode检查要写入的文件是否存在、创建者是否有权进行操作；通过后客户端开始写入，客户端将数据切分成多个packets，并以data queue的形式管理写入，并且向NameNode申请Blocks,获取DataNode列表；以Pipline的形式将packet写入所有的replicas；写入成功后返回一个ack queue，客户端接收到返回的ack packet，会从data queue里移除相应的packet；如果出现故障，关闭对应的pipline，将出故障的datanode移除，NameNode重新分配一个datanode;写入后，数据流调用close方法，关闭数据流

读取：Client向Namenode发起RPC请求；NameNode会返回有该block块的DataNode地址；Client会选取离客户端最近DataNode进行读取，当读完列表的block后，且文件还没读完，会继续从NameNode里获取block列表；如果读取时发生错误，客户端会通知NameNode，再从下一个拥有该block拷贝的DataNode进行读取，每读完一个Block都会进行checksum验证文件的完整性
2、HA机制
在一个典型的HDFS(HA)集群中，配置两个NameNodes，一个处于Active，一个处于Standby状态,ActiveNameNode负责客户端的所有请求，StandybyNameNode就是个备机，当ActiveNameNode发生故障，StandbyNameNode能够快速切换
3、Federation机制
HDFS可同时存在多个NameNode，这些NameNode分管一部分数据，且共享所有的DataNode的资源（提高扩展性、提升吞吐性率，良好的隔离性）