虚拟机搭建CentOS Hadoop集群搭建（05）-CSDN博客

本文链接：https://blog.csdn.net/chehec2010/article/details/123463965

hadoop的安装步骤：
1、tar打开文件到指定目录
tar -zxvf hadoop-2.7.3.tar.gz -C /usr/local/software/

2、创建软连接
ln -s /usr/local/software/hadoop-2.7.3 /usr/local/software/hadoop
3、编辑etc/profile文件
#最后一行
export HADOOP_HOME=/usr/local/software/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4、环境变量生效
source /etc/profile

5、验证Hadoop是否安装成功
hadoop -version

Hadoop 2.7.3

具体安装拷贝过程
默认的hadoop是一种本地执行模式，而在这里讲的是集群分布式模式，所以要修改配置文件，适合集群分布模式。
涉及到需要修改的配置文件

1、hadoop-env.sh
2、core-site.xml
3、hdfs-site.xml
4、mapred-site.xml
5、yarn-site.xml
6、slaves

a、文件hadoop-env.sh

添加：export JAVA_HOME=/usr/local/software/jdk

b、文件core-site.xml

<configuration>
    <property>
        <name>fs.defaultfs</name>
        <value>hdfs://page01</value>
        <description>这里的值指的是NameNode的ip地址</description>
    </property>
    <property>
        <name>hadoop.tmp</name>
        <value>/usr/local/software/hadoop/tmp</value>
        <description>这里的路径默认是NameNode，DataNode等存放数据的公共目录，用户也可以自己单独指定这2类节点的目录</description>
    </property>
</configuration>

c、文件hdfs-site.xml

<configuration>
<property>
    <name>dfs.replication</name>
    <value>3</value>
    <description>指定DataNode存储block的副本数量，默认是3</description>
</property>
</configuration>
d、mapred-site.xml
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <!--指定mr运行框架为yarn方式-->
    <value>yarn</value>
</property>
</configuration>

e、文件yarn-site.xml

<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>page01</value>
</property>
<property>
    <name>yarn.namemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
</configuration>

f、文件slaves(这个文件可以拷贝到子节点，但是最好是拷贝)

page02

配置文件修改文成之后，进入到后续工作
1、通过scp复制/usr/local/software/hadoop到所有节点（注意;scp不支持软连接复制）
scp -r /usr/local/software/hadoop-2.7.3 root@page02:/usr/local/software/
2、分别登录到page02创建软连接
ln -s hadoop-2.7.3 hadoop
3、分发page01的/etc/profile文件到所有主机
scp /etc/profile root@page02:/etc/

记住：最后分别执行source /etc/profile命令！

格式化+启动集群
1、page01格式化hadoop的hdfs
格式化的目的：启动hadoop之前要对hadoop格式化，好比新买的移动硬盘是之前要进行格式化，格式化之后才能使用
格式化的目的是为了对磁盘上的空间按照一定的文件格式进行处理（生成某些需要的文件目录等等）

hadoop namenode -format

2、启动Hadoop集群
start-all.sh(start-dfs.sh+start-mapred.sh)
stop-all.sh(stop-dfs.sh+stop-mapred.sh)

3、jps查看进程
[root@page01 /usr/local/software]#jps
2272  NameNode
2245  SecondaryNameNode
22260 ResourceManager
2954 Jps

web页面查看集群
1、先关闭防火墙
service firewalled status

service firewalled stop

小知识：永久关闭防火墙
//永久关闭
sudo chkongfig firewalld off
//开启
sudo chkconfig firewalld on

2、通过浏览器访问hdfs和yarn
通过http://page01:50070查看NameNode是否正常启动
通过浏览器http://page01:8088查看ResourceManager进行查看：

初步使用：
1、HDFS
hadoop fs -put word2.txt hdfs://page011/
hadoop fs -cat hdfs://page01/word.txt

xxxx内容
2、MapReduce
cd /usr/local/software/hadoop/share/hadoop/mapreduce/
ls -al
hadpoo-mapreduce-examples2.7.3.jar
启动：
hadppo jar hadpoo-mapreduce-examples2.7.3.jar wordcount hdfs://page01/word_02.txt hdfs://page01/output/

运行完成查看结果：
hadoop fs -ls hdfs://page01/output/
hadoop fs -cat hdfs://page01/output/part-r-00000

就会看到每个单词的数量

hadoop启动完成是看不到JobHistory的任务日志，所以我们需要安装一份

Jobhistory查看已经运行的MapReduce作业任务记录，比如用多少个Map、多少个Reduce、作业提交时间、作业的启动时间、
作业完成时间等默认情况下，历史服务器是没有启动的，需要进行参数配置才能完成启动。
具体安装步骤：
涉及到要修改配置文件：yarn-site.xml    mapred-site.xml
1、文件yarn-site.xml

<property>
<!--开启日志聚合-->
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

2、文件mapred-site.xml

<property>
<!--设置jobhistoryserver  没有配置的话history入口不可用-->
<name>mapreduce.jobhistory.address</name>
<value>page01:10020</value>
</property>
<property>
<!--配置web端口-->
<name>mapreduce.jobhistory.webapp.address</name>
<value>page01:19888</value>
</property>
<property>
<!--配置正在运行中的日志在hdfs上的存放路径-->
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>
<property>
<!--配置运行过的日志存放在hdfs上的存放路径-->
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>

3、接下来我们分发配置到其余节点
scp -r /usr/local/software/hadoop/etc/hadoop* root@page02://usr/local/software/hadoop/etc/hadoop/

4、启动和停止JobHistory
mr-jobhistory-daemon.sh start historyserver

mr-jobhistory-daemon.sh stop historyserver

查看进程
job

功能性使用：
运行一个job，通过jobhistory查看一下日志

Linux Cnetos服务器时间同步阿里云北京时间
因为后面搭建zookper集群的时候要保证各个节点的时间是一致的，不一致话就会出现问题。
1、查看当前服务器时间
date -R
2、安装ntpdate服务
yum -y install ntpdate
3、直接用域名同步中国上海时间，是阿里云的服务器时间
ntpdate ntp1.aliyun.com
4、查看新事件是否已同步
date -R