Hadoop最早起源于Nutch,
狭义上:hadoop就是单独只带hadoop这个软件。
广义上:hadoop指代大数据的一个生态圈,包括很多其他软件。
hadoop历史版本
0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本。
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等。
2.x版本系列:架构产生重大变化,引入了yarn平台等新特新。
架构模型
1.x的版本架构模型介绍
文件系统核心模块:
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据。
SecondaryNameNode:主要用于hadoop当中源数据信息的辅助管理。
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据。
数据计算核心模块:
JobTracker:接受用户的计算请求任务,并分配任务给从节点。
TaskTracker:负责执行主节点JobTracker分配的任务。
2.x版本的架构模型
(1)NameNode与ResourceManger单节点架构模型
文件系统核心模块:
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
SecondaryNameNode:主要用于hadoop当中源数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块:
ResourceManger:接受用户的计算请求任务,并负责集群的资源分配日
NodeManger:负责执行主节点APPmaster分配的任务
(2)NameNode单节点与ResourceManger高可用架构模型
文件系统核心模块:
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
secondaryNameNode:主要能用于hadoop当中源数据信息的辅助管理。
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块:
ResourceManger:接受用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分
NodeManger:负责执行主节点ResourceManger分配任务
(3)NameNode高可用与ResourceManger单节点架构模型
文件系统核心模块:
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据。其中nameNode可以有两个,行程高可用状态
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据。
JournalNode:文件系统源数据信息管理
数据计算核心模块:
ResourceManger:接受用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分。
NodeManger:负责执行主节点ResourceManager分配的任务
apache hadoop三种架构
standAlone、伪分布、分布式
**
分布式环境搭建所修改的配置文件
**
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
slaves
hadoop-env.sh
查看hdfs
http://node01:50070/explorer.html
查看yarn集群
http://node01:8088/cluster
查看历史完成的任务
http://node01:19888/jobhistory