一、Hadoop简介
Hadoop来源于Google的GFS论文,发表于2003年的10月,也是由Apache基金会所开发出的分布式系统基础架构。用户可以在不用了解分布式底层的实现细节情况下,开发分布式程序。充分利用主机集群的强大威力来进行数据的高速运算和存储等功能。Hadoop具有高容错性的特点,并且它的集群主机可以部署在低廉的硬件之上;而且它还提供了高吞吐量来访问应用程序的数据,适合用来处理超大数据集,而且它还可以以数据流的形式来访问文件系统中的数据。Hadoop的出现就是为了解决大数据(单台主机无法对数据进行存储和短时间内对数据进行处理)的问题。
二、Hadoop中的集群
Hadoop基本集群的节点类型主要有:
1)NameNode(名称节点):主要用来协调集群中的数据存储,管理HDFS的名称空间和数据块映射的信息,配置文件副本策略和处理客户端的请求。
2)DataNode(数据节点):主要是存储实际被拆分的数据块,并汇报存储信息给NameNode。
3)Secondary NameNode(辅助节点):主要用来辅助NameNode节点,帮助NameNode收集文件系统运行的状态信息,分担其工作量。
4)ResourceManager:在YARN中。负责集群中所有资源的统一管理和分配,它接受来自各节点资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序。
5)JobTracker:协调数据计算任务。
6)TaskTracker:负责执行有JobTra
Hadoop及其组件介绍
最新推荐文章于 2024-03-09 18:35:27 发布