linux下安装、配置hadoop、在yarn上运行jar包,配置MapReduce历史服务器MRHistoryServer、 配置YARN日志聚集功能
- 上传解压
- 配置HAPDOOP
1、上传解压
赋予hadoop-2.7.3.tar.gz执行权限
$ chmod u+x hadoop-2.7.3.tar.gz
解压到指定目录
$ tar -zxf hadoop-2.7.3.tar.gz -C /opt/modules/
注意:
HADOOP Distributed包目录结构按照LINUX系统目录结构规范
2、 配置HADOOP
-a. 配置 *-env.sh 环境变量文件
hadoop-env.sh yarn-env.sh mapred-env.sh
修改值:
export JAVA_HOME=/opt/modules/jdk1.8.0_91
赋以执行权限:
$ chmod u+x hadoop-env.sh yarn-env.sh mapred-env.sh
-b. 依据HADOOP三个模块来进行配置
- HDFS
存储数据
- YARN
管理资源
- MapReduce
分析数据
-c. 配置HDFS环境
- core-site.xml
-
fs.defaultFS
hdfs://bigdata-hpsk01.huadian.com:8020
<!-- 指定HDFS文件系统的本地临时存储目录,默认值为当前系统/tmp -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.7.3/data/tmpData</value>
</property>
创建对应文件夹:
$ cd /opt/modules/hadoop-2.7.3
$ mkdir -p data/tmpData
hdfs-site.xml
<!-- 由于伪分布式安装部署, 仅有一台机器,所有block副本数没有必要设置为3,设置为1即可 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
- 配置slaves文件:指定DataNode运行在哪些机器上
bigdata-hpsk01.huadian.com
说明:
此文件中一行表示一个主机名称,会在此主机上运行DataNode