进入Hadoop解压目录后,配置以下配置文件
1.配置hadoop-env.sh、mapred-env.sh、yarn-env.sh
在这三个文件中都添加export JAVA_HOME=/opt/tool/jdk1.7.0_67
2.配置core-site.xml文件
<configuration>
<!--指定namenode所在机器的位置和访问交互端口号:-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://Master:8020</value>
</property>
<!--指定Hadoop运行时的临时目录地址:-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/moduel/hadoop-2.5.0/data/tmp</value>
</property>
<!--修改静态用户的用户名-->(可以后设置,配置完后需要重启HDFS和YARN)
<property>
<name>hadoop.http.staticuser.user</name>
<value>bigdata</value>
</property>
</configuration>
3.配置slaves
指定datanode所在机器位置:ip地址 Master(主机名)
4.配置hdfs-site.xml文件
<configuration>
<!--设置副本数-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--不启用权限检查-->(HDFS用户权限检测,可以后设置,设置完后需重启HDFS)
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
</configuration>
5.格式化namenode
$ bin/hdfs namenode -format
6.启动namenode和datanode
$ sbin/hadoop-daemon.sh start namenode
$ sbin/hadoop-daemon.sh start datanode
7.查看namenode和datanode进程是否启动成功
$ jps
出现以下内容,则表明进程启动成功
2928 Jps
2772 NameNode
若启动成功,则可外部访问 hostname:50070
8.HDFS文件系统测试
创建目录:$ bin/hdfs dfs -mkdir -p /user/pcx
上传文件:$ bin/hdfs dfs -put etc/hadoop/core-site.xml /user/pcx
读取文件:$ bin/hdfs dfs -cat /user/pcx/core-site.xml
下载文件:$ bin/hdfs dfs -get /user/pcx/core-site.xml /home/pcx/bf-core-site.xml
9.配置yarn-site.xml文件
<configuration>
<!--告知yarn上运行的是mapreduce:-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定resorcemanager所在机器的位置:-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>Master</value>
</property>
<!--是否启用日志聚集功能-->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!--代表设置日志保留的期限时间,单位:秒-->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>16800</value>
</property>
</configuration>
10.启动resourcemanager、nodemanager
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
11.查看进程是否启动成功
$ jps
3352 Jps
2772 NameNode
2977 ResourceManager
3229 NodeManager
2859 DataNode
若启动成功,则可外部查看yarn服务器 hostname:8088
12.配置mapred-site.xml文件
<configuration>
<!--指定mapreduce运行在YARN上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置前将文件名字,改为这个
13.启动历史服务器
1、查看已经运行完成的mapreduce任务的作业记录
2、默认情况下历史服务器是不启动的
3、启动命令:
$ sbin/mr-jobhistory-daemon.sh start historyserver
4、外部访问端口号:19888
http://hostname:19888/
14.若配置完后,无法外部访问,则有可能是防火墙未关闭,需关闭防火墙
# service iptables status 查看状态(用root权限查看)
iptables: Firewall is not running.(表名防火墙已关闭)
# chkconfig iptables off 设置开机不启动防火墙(用root权限设置)
禁用Linux安全子系统(永久关闭防火墙,用root权限查看修改):
vi /etc/sysconfig/selinux
SELINUX=disabled
15.查看日志
进入logs cd logs
查看需要查看的日志文件 more hadoop-hadoop-datanode-Master.log
若日志文件过多,可删除日志记录 rm -rf ./*