1.关闭防火墙(需root用户)
2.关闭Selinux(在/etc/selinux/config 目录下 将SELINUX=enforcing改为SELINUX=disabled 重启电脑)
3.配置ssh免密码登录(需要安装ssh client)
4.安装Java及配置Java环境(安装前需先卸载Linux自带的openjdk)【所有机器都要做】
5.下载Hadoop并解压
a.解压完后检查Hadoop文件夹有无w和x权限(若无则使用chmod 添加)
b.新建hadoop_tmp文件夹用户保存Hadoop运行产生的数据
c.在Hadoop下的conf目录下配置hadoop-env.sh exportjdk的路径
d.配置core-site.xml配置fs.default.name的value为hdfs://namenodeIP:HDFSPort 如hdfs://192.168.15.102:9000
Hadoop默认的hdfs监听端口为9000
修改hadoop.tmp.dir为b步骤所建的文件夹全路径(可cd到hadoop_tmp目录下使用pwd命令查看)
c.配置hdfs-site.xml文件
设置dfs.replication的value为datanode节点的数量,若配置的数量大于实际的数量Hadoop启动时会报错
e.配置mapred-site.xml文件
将mapred.job.tracker的value设置为NameNodeIP:MapReducePort,如 192.168.1.102:9001
f.配置 masters文件
加入NameNode的IP
g.配置slaves文件
加入所有dataNode节点IP
h.通过scp 命令将Hadoop文件夹远程复制到所有的datanode上,并建立和主机上hadoop_tmp路径相同的文件夹
如主机上路径为/home/qhg/hadoop_tmp 则datanode上的路径也应为/home/qhg/hadoop_tmp
i.可以在/etc/profile中加入hadoop_home,然后source /etc/profile
j.(第一次运行hadoop)在NameNode上执行hadoop namenode -format 对Hadoop文件系统HDFS进行格式化
k.启动hadoop,命令start-all.sh(若提示未找到命令则是第i步设置出错,需要到hadoop/bin下执行)
6.在NameNode上使用jps命令查看进程
如果有这些进程则说明NameNode启动成功
7.在DataNode上使用jps命令查看进程
如果有这些进程则说明DataNode启动成功
至此 Hadoop 配置完成