默认已经做好安装前准备。本次安装使用源码包进行安装
1.环境介绍
三台服务器:node01,node02,node03
三台服务器IP:192.168.14.44, 192.168.14.46, 192.168.14.48
CDH版本:5.14.0
Linux版本:CentOS7.5
2.下载Hadoop
3.安装Hadoop
将源码包上传到服务器上,本次安装路径为:/dbdata/hadoop/
app目录:应用软件安装的目录
software:软件安装包
解压
tar -zxvf /opt/hadoop-2.6.0-cdh5.14.0.tar.gz -C /dbdata/hadoop/
目录重名
mv /dbdata/hadoop/hadoop-2.6.0-cdh5.14.0 /dbdata/hadoop/hadoop-2.6.0
组件规划:
4.配置Hadoop
创建hadoop临时目录,里面存储namenode和datanode的相关信息。
mkdir -p /dbdata/hadoop/hadoop-2.6.0/tmp
进入目录
cd /dbdata/hadoop/hadoop-2.6.0/etc/hadoop
需要修改的配置文件:
1.
hadoop-env.sh
2.
yarn-env.sh
3.
mapred-env.sh
4.
core-site.xml
5.
hdfs-site.xml
6.
yarn-site.xml
7.
mapred-site.xml
8.
slavs
-
修改 hadoop-env.sh yarn-env.sh mapred-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_191
-
修改 core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/dbdata/hadoop/hadoop-2.6.0/tmp</value>
</property>
</configuration>
-
修改 hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///dbdata/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///dbdata/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node02:50090</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>node01:50070</value>
</property>
</configuration>
-
修改 yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node02</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>4</value>
</property>
<!--下面两个配置使日志聚集功能,使日志上传到hdfs上-->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>640800</value>
</property>
</configuration>
-
修改 mapred-site.xml
需要重命名
mv mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>node01:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node01:19888</value>
</property>
</configuration>
-
修改 slaves
该文件声明哪些服务器是datanode;
node01
node02
node03
5.拷贝node01的Hadoop安装目录给其他服务器
需要在其他节点上提前创建目录
node02: mkdir -p /dbdata/hadoop/
node03: mkdir -p /dbdata/hadoop/
scp -r /dbdata/hadoop/hadoop-2.6.0 node02:/dbdata/hadoop/hadoop-2.6.0
scp -r /dbdata/hadoop/hadoop-2.6.0 node03:/dbdata/hadoop/hadoop-2.6.0
在node01上执行文件拷贝
scp /dbdata/hadoop/hadoop-2.6.0/etc/hadoop/hdfs-site.xml node02:/dbdata/hadoop/hadoop-2.6.0/etc/hadoop/
scp /dbdata/hadoop/hadoop-2.6.0/etc/hadoop/hdfs-site.xml node03:/dbdata/hadoop/hadoop-2.6.0/etc/hadoop/
6.配置环境变量(可选步骤)
在node01上执行命令:
vi ~/.bashrc
export HADOOP_HOME=/dbdata/hadoop/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
同理在node02下执行同样的操作,切记不要在后面加上/
7.启动Hadoop
在node01主机上
(1)格式化HDFS文件系统
全新的HDFS安装需要进行格式化。通过创建存储目录和初始版本的namenode持久数据结构,格式化进程将创建一个空的文件系统。由于
namenode管理所有的文件系统元数据,datanode可以动态加入或离开集群,所以初始的格式化进程不涉及到datanode。
hdfs namenode -format
启动HDFS:
start-dfs.sh
mr-jobhistory-daemon.sh start historyserver
在node02主机上
启动YARN:
start-yarn.sh
8.查看Hadoop是否启动成功
在node01下执行命令:
jps
可以看到NameNode,DataNode和NodeManager。其他节点同理