1.知识准备
1.1 Hadoop 简介
Hadoop 是开源的、可扩展的、高可用的分布式计算框架。在多数场景下,它是处理大数据问题的利器。
它包括几个部分:① Hadoop common:支持hadoop的公共工具。
② HDFS:支持高吞吐量的分布式文件系统。
③ YARN:作业调度,集群资源管理的框架。
④ Hadoop MapReduce:基于YARN的,大规模数据并行处理的核心框架。
1.2 Hadoop 2.7.2 简介
与上一代hadoop相比,新一代的hadoop有了新的框架 ---- YARN,它取代了以前 JobTracker,TaskTracker。
引入了ResourceManager等概念。具体简介可参考:Hadoop YARN 简介
本次集群搭建针对的是 2.7.2 的版本。
1.3 基础概念简介
HDFS运行时相关的守护进程是:NameNode、SecondaryNameNode、DataNode。
NameNode:维护着文件系统树,以及文件系统树中所有的文件、文件夹的元信息。
SecondaryNameNode:对NameNode记录的元信息根据具体配置进行一个备份。
DataNode:根据NameNode的调度来存储、检索所存储的块(block)的信息,并定期与NameNode通信维护
相应的元信息。
YARN运行时相关的守护进程是:ResourceManager、NodeManager、WebAppProxy。
MapReduce 任务使用的话,可以启动 MapReduce Job History Server的进程,可供web界面查看。
注意,不能为了搭建集群而搭建集群,先搞清楚每个部分的作用,合理规划,才能真正搭建一个有用的集群。
此部分是一个简介,你可以通过google或访问hadoop官网了解具体的概念后,再进行集群搭建的操作。
2.环境准备
本次集群搭建所使用的linux系统版本是:CentOS release 6.5 (Final)。
采用三台机器(当然,你可以使用虚拟机),ip分别为 172.18.1.127,172.18.1.158,172.18.1.49
2.1 必备环境与准备工作
① JDK版本: oracle 1.6.0_20 以上,本次使用的是 1.7.0_79。
② Hadoop 软件包下载:Hadoop软件包下载
③ 查看每台机器的hostname。如需修改,请参考: