Hadoop高性能集群

本文介绍了Hadoop分布式系统,核心包括HDFS和MapReduce。HDFS作为分布式存储系统,采用主从式结构,NameNode管理命名空间,DataNode存储数据。MapReduce则提供分布式计算能力,通过Map和Reduce阶段实现数据并行处理。文章还讨论了SecondaryNameNode的角色以及Hadoop1的组件依赖关系。
摘要由CSDN通过智能技术生成

一:概述

hadoop是一个由apache基金会所开发的分布式系统基础架构,利用集群进行高速运算和存储。

hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS分布式文件系统为海量的数据提供了存储,则MapReduce

为海量的数据提供了计算。

hadoop包括两大核心。分布式存储系统和分布式计算系统。

1.分布式系统

因为处理数据时,必须从一台一台服务器分别读取和写入数据,而分布式文件系统可以管辖很多服务器用于存储

数据。通过这个文件存储系统数据时,感觉不到是存储到不同服务器上。当读取数据时,感觉不到是从不同服务

器上读取的。

 

如图:

分布式文件系统管理的是一个服务器集群。在这个集群中,数据存储在集群的节点(即集群中的服务器)中,

但是该文件系统把服务器的差异屏蔽了,那么,我们就可以像使用普通的文件系统一样使用,但是数据却分散

在不同的服务器中。

命名空间(namespace):在分布式存储系统中,分散在不同节点中的数据可能属于同一文件,为了组织众多

的文件,把文件可以放到不同的文件夹中,文件夹可以一级一级的包含。我们把这种组织形式称为命名空间(namespace)

。命名空间管理着整个服务器集群中的所有文件,命名空间的职责与存储真实数据的职责是不一样的。

负责命令空间职责的节点称为主节点(master node或name node),负责存储真实数据职责的节点称为从节点(

slave node或data node)。

主/从节点:主节点负责管理文件系统的文件结构,从节点负责存储真实的数据,称为主从式结构(master-slaves

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值