1 上传tar包到虚拟机,解压
tar -zxvf hadoop-2.7.6.tar.gz
2 修改名称便于使用
mv hadoop-2.7.6 hadoop
3 配置环境变量,在.bashrc文件中(在家目录下)加入以下变量:
export HADOOP_HOME=/root/soft/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
重新加载配置文件,使环境变量生效(一遍可能不好使,多试几次)
source ~/.bashrc
输入hadoop可以看到以下提示
4 修改配置文件,包括core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、hadoop-env.sh、slaves六个文件。
进入hadoop安装目录下的etc/hadoop,目录如下
修改core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:8020</value>
</property>
</configuration>
修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/groot/soft/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/groot/soft/hadoop/dfs/data</value>
</property>
</configuration>
修改mapred-site.xml,需要先用mapred-site.xml.template模板复制出来一份
cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
修改hadoop-env.sh,指定JAVA_HOME的路径
修改slaves,在其中添加集群中的机器节点(需要提前在/etc/hosts中配置IP地址和对应主机名称)
(如果之后不成功的话,可能会有一种很神奇的情况,试试先把slaves文件删除,再重新建一个)
新建一个masters文件,这个文件原本是没有的, 只需输入namenode主机
5 格式化hdfs,只能在namenode主机(master)上执行
hdfs namenode -format
如果想重新格式化则需要把dfs整个删除再重新格式化(在hdfs-site.xml中配置的)
6 在master上使用start-all.sh启动集群,
master上可以看到如下五个进程
slave上可以看到下面两个进程
也可以只使用start-dfs.sh启动hdfs(stop-dfs.sh为关闭)
7 启动之后关闭防火墙,可以在windows浏览器中使用“namenode节点IP地址:50070”,通过WebUI查看HDFS
service iptables stop