推荐正式安装前,先去看看《安装大数据前的准备工作》里的文章
1.服务器配置
47.107.182.164,120.78.181.181两台服务器都是1核2G内存(推荐使用正式环境学习,安装CDH)
2.服务器安装的服务
HA(高可用,有主备策略等)
(1)47.107.182.164
1、HDFS服务(非HA)
NameNode
DataNode
2、yarn服务(非HA)
NodeManager
3、zookeeper服务(2台集群,通过lead选举)
QuorumPeerMain
4、Hbase服务(主)
HRegionServer
HMaster
(2)120.78.181.181
1、HDFS服务(非HA)
DataNode
SecondaryNameNode
2、yarn服务(非HA)
ResourceManager
NodeManager
3、zookeeper服务(2台集群,通过lead选举)
QuorumPeerMain
4、Hbase服务(备)
HRegionServer
HMaster
3.安装各个服务的版本
HDFS,yarn,mapreduce:hadoop-2.7.4
zookeeper:zookeeper-3.4.12
Hbase:hbase-1.2.6
hive:hive-2.1.1
MariaDB:mariadb.x86_64 1:5.5.52-1.el7,mariadb-server.x86_64 1:5.5.52-1.el7(mysql的分支)
java:1.8.0_191
4.安装服务
(1)HDFS安装
1、https://hadoop.apache.org/release/2.7.4.html去该网址下载hadoop-2.7.4版本
2、通过工具(自行选择工具)上传到linux的opt目录下
3、根据linux的版本不同,为了不报依赖错误,要先预先编译源码,在解压到opt目录下。网址: https://blog.csdn.net/chengyuqiang/article/details/77648643
(1)tar -zxvf hadoop-2.7.3.tar.gz -C /opt
4、hadoop的目录介绍
bin :Hadoop 最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop 。
etc :Hadoop 配置文件所在的目录,包括core-site.xml 、hdfs-site.xml 、mapred-site.xml 等从Hadoop 1.0 继承而来的配置文件和yarn-site.xml 等Hadoop 2.0 新增的配置文件。
include :对外提供的编程库头文件(具体动态库和静态库在lib 目录中),这些头文件均是用C++ 定义的,通常用于C++ 程序访问HDFS 或者编写MapReduce 程序。
lib :该目录包含了Hadoop 对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
libexec :各个服务对应的shell 配置文件所在目录,可用于配置日志输出目录、启动参数(比如JVM 参数)等基本信息。
sbin :Hadoop 管理脚本所在目录,主要包含HDFS 和YARN 中各类服务的启动/ 关闭脚本。
share :Hadoop 各个模块编译后的jar 包所在目录 。
(2)hdfs的单机安装
1、通过vi hadoop-env.sh命令来编辑hadoop-env.sh脚本文件
2、在第25行左右可以找到export JAVA_HOME=${JAVA_HOME}内容
3、将改行修改为export JAVA_HOME=/opt/jdk1.8.0_112
4、同样通过命令vi slaves编辑slaves文件
5、将默认值localhost修改为node1,保存退出。
6、同样通过命令比vim hdfs-site.xml编辑hdfs-site.xml文件
在<configuration>和</configuration>之间添加如下内容:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
7、同样通过命令比vim core-site.xml编辑core-site.xml文件
在<configuration>和</configuration>之间添加如下内容:
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
8、默认情况下该目录下没有mapred-site.xml文件,而是存在一个模版文件mapred-site.xml.template,因此首先将模版文件复制一份为mapred-site.xml。然后在通过vi编辑该mapred-site.xml文件
(1)cp mapred-site.xml.template mapred-site.xml
(2)vi mapred-site.xml
9、同样通过命令比vim mapred-site.xml编辑mapred-site.xml文件
在<configuration>和</configuration>之间添加如下内容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
10、同样通过命令比vim yarn-site.xml编辑yarn-site.xml文件
在<configuration>和</configuration>之间添加如下内容:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(3)hadoop单机运行
1、namenode格式化
bin/hadoop namenode -format
2、在执行结果中可以找到has been successfully formatted,说明namenode格式化成功了!
3、执行sbin/start-dfs.sh命令启动HDFS,在启动HDFS过程中,按照提示输入“yes”
4、通过jps命令可以查看Java进程, jps -l完整查看
5、通过命令sbin/start-yarn.sh启动YARN
6、然后通过jps查看YARN的进程,可以看到多了ResourceManager和NodeManager两个进程。
7、HDFS的Web界面默认端口号是50070。
因为宿主机Windows的hosts文件没有配置虚拟机相关IP信息,所以需要通过IP地址来访问HDFS WEB界面,在浏览器中打开:http://47.120.182.164:50070
单击页面上部的导航栏中的“Datanodes”
8、YARN的Web界面默认端口号是8088。http://47.120.182.164:8088,单击左侧菜单栏的“Nodes”,可以查看NodeManager信息