虚拟机搭建CentOS Hadoop集群搭建(05)

hadoop的安装步骤:
1、tar打开文件到指定目录
tar -zxvf hadoop-2.7.3.tar.gz -C /usr/local/software/

2、创建软连接
ln -s /usr/local/software/hadoop-2.7.3  /usr/local/software/hadoop
3、编辑etc/profile文件
#最后一行
export HADOOP_HOME=/usr/local/software/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4、环境变量生效
source /etc/profile

5、验证Hadoop是否安装成功
hadoop -version

Hadoop 2.7.3

具体安装拷贝过程
默认的hadoop是一种本地执行模式,而在这里讲的是集群分布式模式,所以要修改配置文件,适合集群分布模式。
涉及到需要修改的配置文件

1、hadoop-env.sh
2、core-site.xml
3、hdfs-site.xml
4、mapred-site.xml
5、yarn-site.xml
6、slaves

a、文件hadoop-env.sh 

添加:export JAVA_HOME=/usr/local/software/jdk

b、文件core-site.xml

<configuration>
    <property>
        <name>fs.defaultfs</name>
        <value>hdfs://page01</value>
        <description>这里的值指的是NameNode的ip地址</description>
    </property>
    <property>
        <name>hadoop.tmp</name>
        <value>/usr/local/software/hadoop/tmp</value>
        <description>这里的路径默认是NameNode,DataNode等存放数据的公共目录,用户也可以自己单独指定这2类节点的目录</description>
    </property>
</configuration>
c、文件hdfs-site.xml

<configuration>
<property>
    <name>dfs.replication</name>
    <value>3</value>
    <description>指定DataNode存储block的副本数量,默认是3</description>
</property>
</configuration>
d、mapred-site.xml
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <!--指定mr运行框架为yarn方式-->
    <value>yarn</value>
</property>
</configuration>
e、文件yarn-site.xml

<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>page01</value>
</property>
<property>
    <name>yarn.namemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
</configuration>
f、文件slaves(这个文件可以拷贝到子节点,但是最好是拷贝)

page02

配置文件修改文成之后,进入到后续工作
1、通过scp复制/usr/local/software/hadoop到所有节点(注意;scp不支持软连接复制)
scp -r /usr/local/software/hadoop-2.7.3 root@page02:/usr/local/software/
2、分别登录到page02创建软连接
ln -s hadoop-2.7.3 hadoop
3、分发page01的/etc/profile文件到所有主机
scp /etc/profile root@page02:/etc/

记住:最后分别执行source /etc/profile命令!

格式化+启动集群
1、page01格式化hadoop的hdfs
格式化的目的:启动hadoop之前要对hadoop格式化,好比新买的移动硬盘是之前要进行格式化,格式化之后才能使用
格式化的目的是为了对磁盘上的空间按照一定的文件格式进行处理(生成某些需要的文件目录等等)

hadoop namenode -format

2、启动Hadoop集群
start-all.sh(start-dfs.sh+start-mapred.sh)
stop-all.sh(stop-dfs.sh+stop-mapred.sh)

3、jps查看进程
[root@page01 /usr/local/software]#jps
2272  NameNode
2245  SecondaryNameNode
22260 ResourceManager
2954 Jps

web页面查看集群
1、先关闭防火墙
service firewalled status

service firewalled stop


小知识:永久关闭防火墙
//永久关闭
sudo chkongfig firewalld off
//开启
sudo chkconfig firewalld on

2、通过浏览器访问hdfs和yarn
通过http://page01:50070查看NameNode是否正常启动
通过浏览器http://page01:8088查看ResourceManager进行查看:

初步使用:
1、HDFS
hadoop fs -put word2.txt hdfs://page011/
hadoop fs -cat hdfs://page01/word.txt

xxxx内容
2、MapReduce
cd /usr/local/software/hadoop/share/hadoop/mapreduce/
ls -al
hadpoo-mapreduce-examples2.7.3.jar
启动:
hadppo jar hadpoo-mapreduce-examples2.7.3.jar wordcount hdfs://page01/word_02.txt hdfs://page01/output/

运行完成查看结果:
hadoop fs -ls hdfs://page01/output/
hadoop fs -cat hdfs://page01/output/part-r-00000

就会看到每个单词的数量

hadoop启动完成是看不到JobHistory的任务日志,所以我们需要安装一份

Jobhistory查看已经运行的MapReduce作业任务记录,比如用多少个Map、多少个Reduce、作业提交时间、作业的启动时间、
作业完成时间等默认情况下,历史服务器是没有启动的,需要进行参数配置才能完成启动。
具体安装步骤:
涉及到要修改配置文件:yarn-site.xml    mapred-site.xml
1、文件yarn-site.xml

<property>
<!--开启日志聚合-->
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
2、文件mapred-site.xml

<property>
<!--设置jobhistoryserver  没有配置的话history入口不可用-->
<name>mapreduce.jobhistory.address</name>
<value>page01:10020</value>
</property>
<property>
<!--配置web端口-->
<name>mapreduce.jobhistory.webapp.address</name>
<value>page01:19888</value>
</property>
<property>
<!--配置正在运行中的日志在hdfs上的存放路径-->
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>
<property>
<!--配置运行过的日志存放在hdfs上的存放路径-->
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>
3、接下来我们分发配置到其余节点
scp -r /usr/local/software/hadoop/etc/hadoop* root@page02://usr/local/software/hadoop/etc/hadoop/

4、启动和停止JobHistory
mr-jobhistory-daemon.sh start historyserver

mr-jobhistory-daemon.sh stop historyserver

查看进程
job

功能性使用:
运行一个job,通过jobhistory查看一下日志

Linux Cnetos服务器时间同步阿里云北京时间
因为后面搭建zookper集群的时候要保证各个节点的时间是一致的,不一致话就会出现问题。
1、查看当前服务器时间
date -R
2、安装ntpdate服务
yum -y install ntpdate
3、直接用域名同步中国上海时间,是阿里云的服务器时间
ntpdate ntp1.aliyun.com
4、查看新事件是否已同步
date -R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值