目录
hadoop的安装和配置
集群启动与监控
验证Hadoop是否配置并启动成功
一.设置静态IP
命令:vi /etc/sysconfig/network-scripts/ifcfg-ens33
命令:systemctl restart network.service 重启Linux系统网络。
验证:ip addr命令查看设置是否成功
二.关闭防火墙
查看Linux系统防火墙状态:命令:firewall-cmd --state
关闭防火墙命令:systemctl stop firewalld.service 三台服务器均需要关闭
关闭防火墙的自动运行命令:systemctl disable firewalld.service
三.修改主机名(HOSTNAME)
命令:vi /etc/hostname
三台服务器的主机名分别为:master slave1 slave2
修改完主机名需要重启虚拟机
四.配置主机名与IP映射
完全分布式集群中三台服务器的主机名与IP地址的映射信息均需修改。
命令:vi /etc/hosts
IP地址与主机名的映射输入格式为:IP地址 主机名
其中IP地址即步骤1中设置的静态IP地址
五.设置SSH免密登录
设置ssh之前,需要验证虚拟机是否已经安装了ssh
验证命令:rep -qa | grep ssh
假如没有安装则要使用命令:yum-y install openssh
三台服务器均需执行以下命令产生密钥,位于~/.ssh目录
命令:ssh-keygen –t rsa
每台机器复制各自公钥(id_rsa.pub)到每台服务器
ssh-copy-id -i ~/.ssh/id_rsa.pub master
ssh-copy-id -i ~/.ssh/id_rsa.pub slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub slave2
验证三台服务器是否可以相互免密登录
ssh master
ssh slave1
ssh slave2
六.安装Java运行环境
通过xftp工具将安装包上传到三台服务器的某个目录下
解压文件:tar -zxvf jdk-8u191-linux-x64.tar.gz
重命名解压后的文件夹:将解压后的文件夹重命名为jdk
1. 配置环境变量jdk
命令:vi /etc/profile,编辑此文件增加2行内容
生效配置信息:source /etc/profile
七.配置时间同步服务
1.安装ntpdate
每台服务器在线安装:yum install ntpdate -y
2.同步ntp服务器时间
命令格式:ntpdate -u ip(ntp服务器ip)
服务器 | IP | 命令 |
中国国家授时中心 | 210.72.145.44 | ntpdate -u 210.72.145.44 |
NTP服务器(上海) | ntp.api.bz | ntpdate -u ntp.api.bz |
美国 | time.nist.gov | ntpdate -u time.nist.gov |
复旦 | ntp.fudan.edu.cn | ntpdate -u ntp.fudan.edu.cn |
微软公司授时主机(美国) | time.windows.com | ntpdate -u time.windows.com |
八.Hadoop的安装与配置
1.上传安装包至三台服务器
2.解压安装包并重命名
命令:tar -zxvf hadoop-2.7.7.tar.gz
3.配置环境变量并立即生效
命令:vi /etc/profile,编辑此文件增加2行内容
export HADOOP_HOME=/usr/local/hadoop
export
PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
生效配置文件 命令:source /etc/profile
4.修改Hadoop核心配置文件(在其中一台主服务器配置即可)
Hadoop的核心配置文件有多个:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,
其路径为:/usr/local/hadoop/etc/hadoop
1)修改hadoop-env.sh文件(同伪分布式)
修改JAVA_HOME的配置信息,将原来的值修改为Java运行环境的安装路径。 export JAVA_HOME=/usr/local/jdk…(jdk实际安装路径)
2) 修改yarn-env.sh 文件(同伪分布式)
此文件是YARN框架运行环境的配置,同样需要修改JAVA_HOME的配置信息。 export JAVA_HOME=/usr/local/jdk…(jdk实实际安装路径)
3)修改 core-site.xml,配置HDFS的地址和端口号以及临时数据的目录。(同伪分布式)
<configuration>
<property>
<!-- HDFS资源路径 -->
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>
<!-- Hadoop临时文件存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
4)修改hdfs-site.xml ,修改HDFS保存数据的副本数量以及存储NameNode和DataNode元数据的目录
5)修改修改mapred-site.xml,配置使用yarn框架(同伪分布式) 因Hadoop的此目录下无该文件,需先创建此文件
执行命令:cp mapred-site.xml.template mapred-site.xml
然后配置如下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
6)修改yarn-site.xml,配置yarn属性(同伪分布式)
配置内容如下:
<configuration>
<!—配置resourceManager在哪台机器 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<!-- 在nodemanager中运行mapreduce服务 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
7)修改slaves 此文件所在的目录与以上几个核心配置文件相同,此文件中需将集群中的各从节点服务器名称配置进去。
命令:vi slaves
5.分发主节点配置文件到集群中从节点服务器
九.集群启动与监控
同伪分布式启动,首先需要在主节点服务器进行格式化操作。
NameNode格式化
在Hadoop的解压目录:/usr/local/hadoop/bin下执行
hdfs namenode -format
启动/停止HDFS
在Hadoop的解压目录:/usr/local/hodoop/sbin下存放启动、停止的所有脚本文件
start-dfs.sh stop-dfs.sh
启动/停止YARN start-yarn.sh stop-yarn.sh 一
次性同时启动HDFS和YARN(此种方式不建议使用) start-all.sh stop-all.sh
验证Hadoop是否配置并启动成功 查看启动进程方式 需要在集群的三台服务器分别查看启动进程进行验证
浏览器访问方式
http://192.168.199.130:50070/
http://192.168.199.130:18088
十. 验证Hadoop是否配置并启动成功