Hadoop基本架构之HDFS架构

Hadoop由两部分组成,分别是分布式文件系统和分布式计算框架,分布式文件系统主要用于大规模数据的分布式存储,分布式计算框架则构建在分布式文件系统之上,对存储的分布式文件系统中的数据进行分布式计算。

HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的的数据访问,非常适合大规模数据集上的应用

HDFS总体采用了master/slave架构,主要有Client、NameNode、Secondary-NameNode和DataNode四部分组成

1.Client:代表用户,Client通过与NameNode和DataNode交互访问HDFS中的文件

2.NameNode:整个Hadoop集群中只有一个NameNode,它是整个系统的额总管,负责HDFS的目录树和相关文件元数据信息。这些信息是以fsimage和editlog两个文件形式存放在磁盘上的,当HDFS重启是重新构造。NameNode还负责DataNode的运行状态,一旦发现某个DataNode坏死(可能描述不准确),则将该DataNode移出HDFS并且重新备份上面的数据

3.Secondary-NameNode:NameNode是整个Hadoop集群中的主管,为了减少NameNode的负荷,由Secondary-NameNode负责将fsimage和editlog文件合并,病传输给NameNode。

4.DataNode:一般而言,每一个Slave节点上安装一个DataNode,他负责实际的数据存储,并将数据的信息定期汇报给NameNode,DataNode以固定大小的block(默认情况下为64M)为基本单位组织文件内容。当用户上传一个文件到HDFS时,该文件会被切割分成若干个block,分别存储到不同的DataNode节点上,同事为了保证数据的可靠性,会将同一个block以流水线方式写到若干个不同的DataNode上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值