1.集群简介
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起
HDFS集群:
负责海量数据的存储,集群中的角色主要有 NameNode / DataNode
YARN集群:
负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager
2.服务器准备
本案例使用虚拟机服务器来大家HADOOP集群,所使用的软件及版本:
Vmware11.0
Centos 6.5 64bit
3.网络环境准备
采用NAT方式联网
网关地址:不知道咋查找,咋配置的看我博客文章,里面有详细介绍
3个服务器节点ip地址:不知道咋查找,咋配置的看我博客文章,里面有详细介绍
子网掩码:255.255.255.0
4.服务器系统设置
添加HADOOP用户
为HADOOP用户分配sudoer权限
同步时间
设置主机名:mini1
mini2
mini3
配置内网域名映射
ip1 mini1
ip2 mini2
ip3 mini3
配置SSH免密登录
配置防火墙
5.JDK环境安装
上传jdk安装包
规划安装目录 /home/hadoop/apps/jdk_1.7.65
解压安装包
配置环境变量 /etc/profile
6.安装部署
上传HADOOP安装包
规划安装目录 /home/hadoop/apps/hadoop-2.6.1
解压安装包
修改配置文件 $HADOOP_HOME/etc/hadoop/
最简化配置如下:
vi hadoop-env.sh
# The java implementation to use.
export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_51
vi core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mini1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
</property>
</configuration>
vi hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
vi mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
vi yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>mini1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
vi slaves
mini1
mini2
mini3
7.启动集群
初始化HDFS
bin /hadoop namenode -format
启动hdfs
sbin/start-dfs.sh
启动YARN
sbin/start-yarn.sh
8.查看集群状态
hdfs dfsadmin -report
也可以打开web控制台查看集群信息,在浏览器打开http://mini1:50070/
这样一个建议的集群已经搭建完毕。