文章目录
- 1. 虚拟机准备
- 2. SSH无密登录配置
- 3. 编写集群分发脚本xsync(名字顺便)
- 4. 集群配置
- 5. 启动集群
- 6 在web上查看
1)准备3台客户机(关闭防火墙、静态ip、主机名称)
2)安装JDK
3)配置环境变量
4)安装Hadoop
5)配置环境变量
6)配置集群
7)单点启动
8)配置ssh
9)群起并测试集群
1. 虚拟机准备
(要配置网络,安装jdk和hadoop)
https://blog.csdn.net/andyonlines/article/details/104397301
https://blog.csdn.net/andyonlines/article/details/104367396
sudo vim /etc/udev/rules.d/70-persistent-net.rules
sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0
sudo vi /etc/sysconfig/network
2. SSH无密登录配置
2.1 配置ssh
基本语法
ssh 另一台电脑的ip地址
ssh xiaoai
这种方法需要密码
2.2 无密钥配置
(1)免密登录原理
(2)生成公钥和私钥
ssh-keygen -t rsa
然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
(3)将公钥拷贝到要免密登录的目标机器上
ssh-copy-id xiaoai01
ssh-copy-id xiaoai02
ssh-copy-id xiaoai03
注意:
还需要在xiaoai02上采用root账号,配置一下无密登录到xiaoai01、xiaoai02、xiaoai03;
还需要在xiaoai03上采用atguigu账号配置一下无密登录到xiaoai01、xiaoai02、xiaoai03服务器上。
2.3. .ssh文件夹下(~/.ssh)的文件功能解释
3. 编写集群分发脚本xsync(名字顺便)
3.1. scp(secure copy)安全拷贝
(1) scp定义:
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
(2) 基本语法
scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname
scp -r /opt/module root@xiaoai:/opt/module
命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称
3.2. rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
(2) 基本语法
rsync -av $pdir/$fname $user@hadoop$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称
选项参数说明
rsync -av /opt/module root@xiaoai:/opt/
3.3. xsync 集群分发脚本
(1) 在当前用户目录下创建一个bin目录,然后在里面新建一个xsync文件,把下面的内容粘贴进去:
#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
# xiaoai01...是指要分发的主机名称.
for host in xiaoai01 xiaoai02 xiaoai03
do
echo ------------------- $host --------------
rsync -av $pdir/$fname $user@$host:$pdir
done
(2) 修改脚本 xsync 具有执行权限
chmod 777 xsync
(3) 调用脚本形式:xsync 文件名称
xsync /home/andy/bin
4. 集群配置
4.1 集群部署规划
(下面所有的hadoop的配置文件都在 /hadoop-2.7.2/etc/hadoop/ 目录下配置)
4.2 核心配置文件( core-site.xml )
4.2.1 配置NameNode的地址
vi core-site.xml
在改文件中配置NameNode的地址, Hadoop运行时产生文件的存储目录
在该文件中编写如下配置如下
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://xiaoai01:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
4.3 env文件(hadoop-env.sh,yarn-env.sh,mapred-env.sh)
在一下文件中添加JAVA_HOME:
hadoop-env.sh
yarn-env.sh
mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
4.4 HDFS配置文件(hdfs-site.xml)
4.4.1 Hadoop辅助名称节点主机配置
在改文件中配置Hadoop辅助名称节点主机配置, 和副本数.
vi hdfs-site.xml
在该文件中编写如下配置
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>xiaoai03:50090</value>
</property>
4.5 YARN配置文件(yarn-site.xml)
4.5.1 指定YARN的ResourceManager的地址
4.5.2 配置日志的聚集
vi yarn-site.xml
在改文件中配置 YARN的ResourceManager的地址
在该文件中增加如下配置
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>xiaoai02</value>
</property>
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
4.6 MapReduce配置文件(mapred-site.xml)
4.6.1 指定MR运行在Yarn上
4.6.2 配置历史服务器
mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
在该文件中增加如下配置
<!-- 指定MR运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>xiaoai01:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>xiaoai01:19888</value>
</property>
4.7 配置slaves
vi slaves
在该文件中增加如下内容(不能有空格和空行):
xiaoai01
xiaoai02
xiaoai03
4.8 分发/hadoop-2.7.2/etc/hadoop/ 目录到各个服务器
xsync /opt/module/hadoop-2.7.2/etc/hadoop
4.9 配置集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。
4.9.1 时间服务器配置(必须root用户)
(1)检查ntp是否安装
rpm -qa|grep ntp
ntp-4.2.6p5-10.el6.centos.x86_64
fontpackages-filesystem-1.41-1.1.el6.noarch
ntpdate-4.2.6p5-10.el6.centos.x86_64
(2)修改ntp配置文件
vi /etc/ntp.conf
修改内容如下:
a)修改1(授权192.168.60.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间)
#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap为
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
b)修改2(集群在局域网中,不使用其他互联网上的时间)
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
c)添加3(当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步)
server 127.127.1.0
fudge 127.127.1.0 stratum 10
(3)修改/etc/sysconfig/ntpd 文件
vim /etc/sysconfig/ntpd
增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
(4)重新启动ntpd服务
service ntpd start
chkconfig ntpd on
4.9.2 其他机器配置(必须root用户)
crontab -e
编写定时任务如下:
*/10 * * * * /usr/sbin/ntpdate hadoop102
5. 启动集群
5.1 格式化NameNode
注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)
hdfs namenode -format
5.2 启动HDFS
在配置namenode的服务器上启动
start-dfs.sh
5.3 启动YARN
注意:NameNode和ResourceManger如果不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN。
start-yarn.sh
5.4 启动历史服务器
mr-jobhistory-daemon.sh start historyserver
6 在web上查看
查看yarn:
http://xiaoai01:8088
查看日志:
http://xiaoai01:19888
查看HDFS文件系统:
http://xiaoai01:50070
SecondaryNameNode:
http://xiaoai03:50090