1. 集群简介
Hadoop包括两个集群,hdfs集群和yarn集群
hdfs集群负责数据存储,主要角色有:NameNode,DataNode,SecondaryNameNode
yarn集群负责调度管理,主要角色有ResourceManager, NodeManager
两者逻辑上没有必要关联一定要放在一起,但一般放在一起。
2. 环境准备
centOS/VMWare开启三台虚拟机
bigdata01.virtualgroup.com
bigdata02.virtualgroup.com
bigdata03.virtualgroup.com
集群时间同步
防火墙关闭
主机名host映射
免密登陆
JDK1.8
分布模式
bigdata01.virtualgroup.com简称01,其余同理
01: NameNode; DataNode; ResourceManager; NodeManager;
02: SecondaryNameNode; DataNode; NodeManager;
03: DataNode; NodeManager;
文件夹设定
mkdir /export/servers #安装文件(JDK,Hadoop等)
mkdir /export/datas #存储数据
3. Hadoop版本及下载
3.1 Hadoop版本
社区版: Apache提供的官方版本
优点:版本功能新且全
缺点:不稳定
商业版:商业公司版本(以CDH cloudera为例)
优点:兼容性好
缺点:不是最新版,要钱
4.2 hadoop下载
采用cdh5.14.0–Hadoop2.6.0
http://archive.cloudera.com/cdh5/
4.3 hadoop编译
a. JDK1.7
b. cloudera公司jar包不在maven中央仓库,需要下载配置到编译的机器上
c. 网络畅通
(未展开论述)
4. Hadoop配置文件
4.1 hadoop-env.sh
配置环境变量 (jdk的安装路径)
export JAVA_HOME=/export/servers/jdk1.8.0_65
4.2 (core/hdfs/yarn/mapred)-site.xml
均有对应的xxx-default.xml文件,两者作用相同
先匹配xxx-site.xml,如没有再在xxx-default.xml文件中寻找属性设置
4.2.1 core-site.xml
核心配置文件
<!-- 用于设置Hadoop的文件系统,由URI指定,名称改为对应机器名 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata01.virtualgroup.com:9000</value>
</property>
<!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${user.name} -->
<property>