1、准备jdk...
2、准备Hadoop:https://hadoop.apache.org/releases.html
3、配置ssh免密登录,方便在Hadoop集群上管理和共享资源
a、开启远程登录:系统偏好设置-->共享-->选择远程登录
b、打开终端 --> 输入ssh-keygen -t rsa --> 输入cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys --> 输入ssh localhost进行测试,配置成功出现如下信息:
4、配置Hadoop环境变量,类似于jdk的配置。打开终端输入:vim ~/.bash_profile。加上如下信息(这里我直接把Hadoop文件放在了document下面):
这样,输入${HADOOP_HOME}即可进入到Hadoop文件下。
5、配置Hadoop环境,进入${HADOOP_HOME}/etc/hadoop,修改以下四个配置文件:hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。
hadoop-env.sh:
export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"
core-site.xml:
<configuration>
<!-- 指定HDFS老大(namenode)的通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/Users/chenbin/Documents/hadoop-3.2.0/tmp/hdfs/data</value>
</property>
</configuration>
hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/Users/chenbin/Documents/hadoop-3.2.0/tmp/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/Users/chenbin/Documents/hadoop-3.2.0/tmp/hdfs/data</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.http.address</name>
<value>localhost:50070</value>
</property>
</configuration>
mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx4096m</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
6、初始化:进入终端输入hadoop namenode -format
7、启动Hadoop。
a、sbin/start-all.sh
b、sbin/start-dfs.sh ,sbin/start-yarn.sh
输入jps查看启动结果:
8、验证启动结果。浏览器输入以下网址是否能显示以下页面:
http://localhost:50070
http://localhost:8088