转载请注明出处: http://blog.csdn.net/u012842205/article/details/52503514
Hadoop是一个开源的计算框架,致力于在廉价计算机集群上大规模数据集的分布式存储和计算。简介可通过此文章了解:Hadoop概述
当然,最好的学习方式,通过wikipedia,官网,各大博客论坛,书籍,都是很好的方法。本文主要叙述自身搭建Apache Hadoop集群各项操作和一些注意事项。
一 环境
1、软件:
Apache Hadoop2.7.1 我直接下载了二进制版,已经编译好的软件包。
JDK 1.8.0_73
2、系统:
集群一共四台实体机,系统都是CentOS 7.2
3、网络配置:
主机名 | IP | 角色 |
M1 | 192.168.1.30 | NameNode |
M2 | 192.168.1.31 | DataNode |
S1 | 192.168.1.32 | DataNode |
S2 | 192.168.1.33 | DataNode |
192.168.1.30 M1
192.168.1.31 M2
192.168.1.32 S1
192.168.1.33 S2
注意:hosts文件中不要定义127.0.0.1映射到本机主机名,可以映射到localhost。否则后面总会出现些奇奇怪怪的问题。
二 环境配置
1、Java 环境配置(JDK)
这个材料太多了,不详细讲了。每台机器上都要有Java环境。Apache Hadoop由Java编写的,当然得有Java支持。本文中JAVA_HOME是/usr/lib64/jvm/jdk1.8.0_73,自己配一个喜欢的地方吧,每个节点都要配。
注:目前java环境的配置,起作用的主要是CLASSPATH,JAVA_HOME,PATH中加入java的bin,特别是前两者。不注意很有可能出现ClassNotFound和未找到JAVA环境的问题。
2、Apache Hadoop解压
通过官网下载到Hadoop二进制包,解压(一般压缩包为.tar.gz,可直接勇tar -xzvf 解压)并放置到一个自己喜欢的目录下即可,每个节点都如此操作。
注意:
(1)解压后,解压目录(比如hadoop2.7.1)的所有者必须是启动这个集群的系统用户或组,也及是有足够的执行权限。可以新创建一个hadoop用户,并将hadoop软件包解压(使用hadoop用户解压则这个目录就是hadoo