首先在Master节点解压文件,进入Hadoop的目录,我这里下载的是hadoop-2.7.7。
解压后的文件目录是 /home/yellow/hadoop-2.7.7。
master节点的主机名为master。
1. 配置core-site.xml(设置NameNode的位置)
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
2. 配置hdfs-site.xml(设置HDFS的路径)
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/yellow/hadoop-2.7.7/data/nameNode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/yellow/hadoop-2.7.7/data/dataNode</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3. 配置mapred-site.xml(设置YARN为任务管理器)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4. 配置yarn-site.xml(设置YARN的一些信息)
<configuration>
<property>
<name>yarn.acl.enable</name>
<value>0</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
</configuration>
5. 配置slaves文件。(Hadoop3之后该文件名变为workers)
此处为主从结构中所有slave节点的主机名或者IP地址)。我的集群有1台master节点以及3台slave节点,名字分别为slave1、slave2和slave3。
slave1
slave2
slave3
6. 配置hadoop-env.sh(此处的环境变量应与系统的JAVA环境变量相同)
export JAVA_HOME=/home/yellow/jdk-11.0.12
7. 将master节点配置好的hadoop文件,分发到其余所有slave节点。
8. 配置环境变量
vim ~/.bashrc
在文件末尾追加
export HADOOP_HOME=/home/yellow/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export LD_LIBRARY_PATH=${HADOOP_HOME}/lib/native
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
9. 刷新环境变量
source ~/.bashrc
10. Hadoop集群的初始化
Hadoop启动之前,需要进行namenode节点的初始化
hdfs namenode -format
11. 启动Hadoop集群中的HDFS以及Yarn
start-dfs.sh
start-yarn.sh