Hadoop安装与配置
一、实验目的
掌握完全分布模式的整合平台中Hadoop的高 可用性完全分布模式的安装。
二、实验要求
完成Hadoop的高可用性完全分布模式的安装。
Hadoop的相关服务进程能够正常启动。
HDFS能够正常使用。
MapReduce能够正常运行。
三、试验环境
1、五台独立PC机或者虚拟机
2、主机之间有效的网络连接
3、每台主机内存2G以上
4、所有主机都已经安装Centos 7.4操作系统
5、所有主机已经完成网络属性配置。
6、所有主机安装JDK。
7、已经完成Zoopkeeper集群的安装与部署。
四、集群规划
五、实验内容
任务一 Hadoop基本安装配置
1、首先,Hadoop软件包“hadoop-2.7.3.tar.gz
”我们已经上传到用户家目录的“setups
”目录下。然后进行解压和环境变量设置。
创建用于存放Hadoop
相关文件的目录
$mkdir ~/hadoop
进入该目录
$cd ~/hadoop
将软件包解压
$tar -xzf ~lsetups/hadoop-2.7.3.tar.gz
2、配置Hadoop相关的环境变量
对配置文件进行修改,在文件末尾添加以下内容:
使新配置的环境变量立即生效
查看新添加和修改的环境变量是否设置成功,以及环境变量的值是否正确。
验证Hadoop的安装配置是否成功
任务二 Hadoop高可用完全分布模式配置
1、进入Hadoop相关文件的目录,分别创建Hadoop的临时文件目录“tmp
”、HDFS
的元数据文件目录“name
”、HDFS
的数据文件目录“data
” 、Journal
的逻辑状态数据目录“journal
”。
2、进入Hadoop的配置文件所在目录
对配置文件进行修改
找到配置项“JAVA_HOME
”所在行,将其改为以下内容:(去掉注释#)
export
JAVA_HOME=/home/admin/java/jdk1.8.0_131
对配置文件进行修改
vi core-site.xml
添加如下内容
对配置文件进行修改
vi hdfs-site.xml
添加如下内容
由模板文件拷贝生成配置文件“mapred-site.xml
”
cp mapred-site.xml.template mapred-site.xml
对配置文件进行修改
vi mapred-site.xml
添加如下内容:
对配置文件进行修改
vi yarn-env.sh
找到配置项“JAVA_HOME
”所在行,将其改为以下内容:(注意取消注释#,顶格)
export
JAVA_HOME=/home/admin/java/jdk1.8.0_131
对配置文件进行修改
vi yarn-site.xml
找到标签“<configuration>
”所在的位置,在其中添加如下
#对配置文件进行修改
vi slaves
删除文件中原有的所有内容,然后添加集群中所有数据节点的主机名,每行一个主机的主机名,配置格式如下:
Cluster-03
Cluster-04
Cluster-05
任务三 同步安装和配置
1、将“hadoop
”目录和“.bash_profile
”文件发给集群中所有主机,发送目标用户为集群专用用户admin
,发送目标路径为“/home/admin
”,即集群专用用户admin
的家目录。
2、集群中每台主机分别进行以下命令操作:
使新配置的环境变量立即生效
source ~/.bash_profile
查看新添加和修改的环境变量是否设置成功,以及环境变量的值是否正确。
echo $HADOOP_HOME
echo $PATH
验证Hadoop的安装配置是否成功
hadoop version
任务四 Hadoop高可用完全分布模式格式化和启动
1、在所有同步通信节点的主机执行,启动同步通信服务,然后使用命令“jps
”查看Java进程信息,若有名为“JournalNode
”的进程,则表示同步通信节点启动成功。
2、在主节点使用此命令,对HDFS
进行格式化,若格式化过程中没有报错则表示格式化成功。
3、格式化完成后将“hadoop
”目录下的“name
”目录发给集群中所有备用主节点的主机,发送目标用户为集群专用用户admin
,即当前与登录用户同名的用户,发送目标路径为“/home/admin/hadoop
”,即集群专用用户admin
家目录下的Hadoop
相关文件的目录。
4、#在集群中所有主机上使用此命令,查看该节点Zookeeper服务当前的状态,若集群中只有一个“leader
”节点,其余的均为“follower
”节点,则集群的工作状态正常。
5、在主节点使用命令,对Hadoop
集群在Zookeeper
中的主节点切换控制信息进行格式化,若格式化过程中没有报错则表示格式化成功。格式化之前确保集群中各主机Zookeeper
开启。注:本操作只在第一次安装时执行。安装完成后,以及关机重启服务器后不需要再次执行。不要重复格式化。
$hdfs zkfc -formatZK
#在所有同步通信节点的主机,使用此命令,关闭同步通信服务。注:本操作只在第一次安装时执行。安装完成后,以及关机重启服务器后不需要再次执行。
$hadoop-daemon.sh stop journalnode
#在主节点使用命令,启动Hadoop
集群。
$start-all.sh
#在所有备用主节点的主机,使用此命令,启动YARN
主节点服务。
$yarn-daemon.sh start resourcemanager
在主节点使用命令“jps”查看Java进程信息,若有名为“NameNode
”、“ResourceManager
”、
“DFSZKFailoverController
”的三个进程,则表示Hadoop集群的主节点启动成功。
使用命令“ssh目标主机名或IP地址”远程登录到所有备用主节点主机,使用命令“jps
”查看Java进程信息,若有名为“NameNode”
、“ResourceManager
”、“DFSZKFailoverController
”的三个进程,则表示Hadoop集群的备用主节点启动成功。
6、Hadoop高可用完全分布模式验证
在Hadoop
中创建当前登录用户自己的目录
hadoop fs -mkdir -p /user/admin
查看HDFS中的所有文件和目录的结构
hadoop fs -ls -R /
进入Hadoop的示例程序包hadoop-mapreduce-examples-2.7.3.jar
所在目录
$cd ~/hadoop/hadoop-2.7.3/share/hadoop/mapreduce
#运行使用蒙地卡罗法计算PI的示例程序
hadoop jar hadoop-mapreduce-examples-2.7.3.jar pi 2 1000