1. 上传tar包
2. 解压
3. 配置jdk环境
4. 进入/usr/local/src/hadoop-2.7.2/etc/hadoop
6. 修改hadoop-env.sh文件里面的jdk环境变量
7. 配置环境变量:vim/etc/profile
HADOOP_HOME=/usr/local/src/hadoop-2.7.2/
export PATH=$HADOOP_HOME/bin:$PATH
export PATH=$HADOOP_HOME/sbin:$PATH
8. 加载环境变量:source /etc/profile
9. 测试安装是否成功:hadoop version
10. 测试案例使用(可以不操作):
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
cat output/*
11. 进入:/usr/local/src/hadoop-2.7.2/etc/hadoop目录
12. 修改core-site.xml文件
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
13. 修改hdfs-site.xml 文件
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
14. 格式化NameNode: bin/hdfs namenode -format(重新格式化请删除data和logs目录)
15. 启动:sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
查看:jps
16. web页面访问:http://192.168.0.118:50070
测试数据:
创建文件夹:hdfs dfs -mkdir -p /user/admin/input
上传文件: hdfs dfs -put README.txt /user/admin/input/
下载: hdfs dfs -get /user/admin/input/README.txt ./wcoutput/
删除:hdfs dfs -rm -r /user/admin/input/README.txt
yarn配置和安装:---------------------------------------------------------------------------
1. 修改yarn-env.sh 文件的jdk路径
2. 修改yarn-site.xml
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop1</value>
</property>
3. 修改mapred-env.sh 文件的jdk路径
4. mv mapred-site.xml.template mapred-site.xml
5. 修改 mapred-site.xml
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
6. 启动前必须保证NameNode和DataNode已经启动
7. sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
8. http://192.168.0.118:8088/cluster
9. 测试案例
进入目录:cd /usr/local/src/hadoop-2.7.2
删除输出目录:bin/hdfs dfs -rm -R /user/admin/output
上传文件:hdfs dfs -put README.txt /user/admin/input/
进行语句:bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/admin/input /user/admin/output
查看结果: bin/hdfs dfs -cat /user/admin/output/*
配置历史服务器:--------------------------------------------------------------------------
1. 修改mapred-site.xml文件
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop1:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop1:19888</value>
</property>
2. 启动:sbin/mr-jobhistory-daemon.sh start historyserver
3. 访问:http://192.168.0.118:19888/jobhistory
配置日志的聚集:---------------------------------------------------------------------------
1. 修改yarn-site.xml文件
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
2. 重新启动NodeManager 、ResourceManager和HistoryManager。
sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
3. 测试案例
进入目录:cd /usr/local/src/hadoop-2.7.2
删除输出目录:bin/hdfs dfs -rm -R /user/admin/output
上传文件:hdfs dfs -put README.txt /user/admin/input/
进行语句:bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/admin/input /user/admin/output
查看结果: bin/hdfs dfs -cat /user/admin/output/*
4. http://192.168.0.118:19888/jobhistory