安装Hadoop:设置单节点Hadoop集群
从我们之前关于Hadoop教程系列的博客中,您必须对Hadoop,HDFS及其体系结构有一个理论的概念。我希望你会喜欢我们以前的HDFS架构博客 ,现在我将带你了解Hadoop和HDFS的实际知识。向前迈出的第一步是安装Hadoop。
有两种安装Hadoop的方法,即单节点和多节点。
单节点集群 意味着只有一个DataNode运行,并在一台机器上设置所有NameNode,DataNode,ResourceManager和NodeManager。这用于学习和测试目的。例如,让我们考虑一个医疗行业内的样本数据集。因此,为了测试Oozie作业是否已经按照适当的顺序对数据进行了收集,聚合,存储和处理等全部过程,我们使用单节点集群。与包含数百TB数据的大型环境相比,它可以在更小的环境中轻松高效地测试顺序工作流。
在多节点群集中,有多个DataNode正在运行,每个DataNode在不同的机器上运行。多节点集群实际上被用于组织中分析大数据。考虑到上面的例子,我们实时处理PB级的数据时,需要分布在数百台机器上进行处理。因此,这里我们使用多节点集群。
在这个博客中,我将向您展示如何在单个节点集群上安装Hadoop。
先决条件
- VIRTUAL BOX:用于在其上安装操作系统。
- 操作系统:您可以在基于Linux的操作系统上安装Hadoop。Ubuntu和CentOS是非常常用的。在本教程中,我们使用CentOS。
- JAVA:您需要在您的系统上安装Java 8软件包。
- HADOOP:你需要Hadoop 2.7.3包。
安装Hadoop
第1步:点击这里下载Java 8包。将此文件保存在您的主目录中。
第2步:提取Java Tar文件。
命令: tar -xvf jdk-8u101-linux-i586.tar.gz
图:Hadoop安装 - 提取Java文件
第3步:下载Hadoop 2.7.3包。
命令: wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
图:Hadoop安装 - 下载Hadoop
第4步:解压Hadoop tar文件。
命令:tar -xvf hadoop-2.7.3.tar.gz
图:Hadoop安装 - 提取Hadoop文件
第5步:在bash文件(.bashrc)中添加Hadoop和Java路径。
打开。 bashrc文件。现在,添加Hadoop和Java Path,如下所示。
命令: vi .bashrc
图:Hadoop安装 - 设置环境变量
然后,保存bash文件并关闭它。
要将所有这些更改应用到当前终端,请执行source命令。
命令:源.bashrc
图:Hadoop安装 - 刷新环境变量
要确保Java和Hadoop已经正确安装在您的系统上,并且可以通过终端访问,请执行java -version和hadoop版本命令。
命令: java -version
图:Hadoop安装 - 检查Java版本
命令: hadoop 版本
图:Hadoop安装 - 检查Hadoop版本
第6步:编辑Hadoop配置文件。
命令: cd hadoop-2.7.3 / etc / hadoop /
命令: ls
所有Hadoop配置文件都位于hadoop-2.7.3 / etc / hadoop目录中,如下所示:
图:Hadoop安装 - Hadoop配置文件
步骤7 :打开core-site.xml并在配置标签内编辑下面提到的属性:
core-site.xml通知Hadoop守护进程,NameNode在群集中运行。它包含Hadoop核心的配置设置,例如HDFS和MapReduce共有的I / O设置。
命令: vi core-site.xml
图:Hadoop安装 - 配置core-site.xml
1
2
3
4
五
6
7
8
|
<?
xml
version
=
"1.0"
encoding
=
"UTF-8"
?>
<?
xml-stylesheet
type
=
"text/xsl"
href
=
"configuration.xsl"
?>
<
configuration
>
<
property
>
<
name
>fs.default.name</
name
>
</
property
>
</
configuration
>
|
第8步:编辑hdfs-site.xml 并在配置标签内编辑下面提到的属性:
hdfs-site.xml包含HDFS守护进程(即NameNode,DataNode,Secondary NameNode)的配置设置。它还包括HDFS的复制因子和块大小。
命令: vi hdfs-site.xml
图:Hadoop安装 - 配置hdfs-site.xml
1
2
3
4
五
6
7
8
9
10
11
12
|
<?
xml
version
=
"1.0"
encoding
=
"UTF-8"
?>
<?
xml-stylesheet
type
=
"text/xsl"
href
=
"configuration.xsl"
?>
<
configuration
>
<
property
>
<
name
>dfs.replication</
name
>
<
value
>1</
value
>
</
property
>
<
property
>
<
name
>dfs.permission</
name
>
<
value
>false</
value
>
</
property
>
</
configuration
>
|
第9步:编辑mapred-site.xml文件并在配置标签内编辑下面提到的属性:
mapred-site.xml包含MapReduce应用程序的配置设置,如可并行运行的JVM的数量,映射器和还原器进程的大小,进程可用的CPU内核等。
在某些情况下,mapred-site.xml文件不可用。所以,我们必须使用mapred-site.xml模板创建mapred-site.xml文件 。
命令: cp mapred-site.xml.template mapred-site.xml
命令: vimapred-站点。xml。
图:Hadoop安装 - 配置mapred-site.xml
1
2
3
4
五
6
7
8
|
<?
xml
version
=
"1.0"
encoding
=
"UTF-8"
?>
<?
xml-stylesheet
type
=
"text/xsl"
href
=
"configuration.xsl"
?>
<
configuration
>
<
property
>
<
name
>mapreduce.framework.name</
name
>
<
value
>yarn</
value
>
</
property
>
</
configuration
>
|
第10步:编辑yarn-site.xml 并在配置标签内编辑下面提到的属性:
yarn-site.xml包含ResourceManager和NodeManager的配置设置,如应用程序内存管理大小,程序和算法所需的操作等。
命令: vi yarn-site.xml
图:Hadoop安装 - 配置yarn-site.xml
1
2
3
4
五
6
7
8
9
10
11
|
<?
xml
version
=
"1.0"
>
<
configuration
>
<
property
>
<
name
>yarn.nodemanager.aux-services</
name
>
<
value
>mapreduce_shuffle</
value
>
</
property
>
<
property
>
<
name
>yarn.nodemanager.auxservices.mapreduce.shuffle.class</
name
>
<
value
>org.apache.hadoop.mapred.ShuffleHandler</
value
>
</
property
>
</
configuration
>
|
第11步:编辑hadoop-env.sh并添加Java路径,如下所述:
hadoop-env.sh包含脚本中用来运行Hadoop的环境变量,如Java home path等
命令: vi hadoop-env。SH
图:Hadoop安装 - 配置hadoop-env.sh
第12步: 转到Hadoop主目录并格式化NameNode。
命令: cd
命令: cd hadoop-2.7.3
命令: bin / hadoop namenode -format
图:Hadoop安装 - 格式NameNode
这通过NameNode格式化HDFS。这个命令只是第一次执行。格式化文件系统意味着初始化由dfs.name.dir变量指定的目录。
永远不要格式化,运行Hadoop文件系统。你将失去所有存储在HDFS中的数据。
第十三步:一旦NameNode被格式化,转到hadoop-2.7.3 / sbin目录并启动所有的守护进程。
命令: cd hadoop-2.7.3 / sbin
您可以使用单个命令启动所有守护进程,也可以单独执行。
命令: ./ start-all.sh
上面的命令是 start-dfs.sh,start-yarn.sh& mr-jobhistory-daemon.sh
或者你可以单独运行所有的服务如下:
启动NameNode:
NameNode是HDFS文件系统的核心。它保存HDFS中存储的所有文件的目录树,并跟踪存储在群集中的所有文件。
命令: ./hadoop-daemon.sh start namenode
图:Hadoop安装 - 启动NameNode
启动DataNode:
在启动时,DataNode连接到Namenode,它响应Namenode对不同操作的请求。
命令: ./hadoop-daemon.sh启动datanode
图:Hadoop安装 - 启动DataNode
启动ResourceManager:
ResourceManager是仲裁所有可用群集资源的主机,从而有助于管理在YARN系统上运行的分布式应用程序。其工作是管理每个NodeManagers和每个应用程序的ApplicationMaster。
命令: ./yarn -daemon.sh启动resourcemanager
图:Hadoop安装 - 启动ResourceManager
启动NodeManager:
每个机器框架中的NodeManager是负责管理容器的代理,监视它们的资源使用情况并将其报告给ResourceManager。
命令: ./yarn -daemon.sh启动nodemanager
图:Hadoop安装 - 启动NodeManager
启动JobHistoryServer:
JobHistoryServer负责处理来自客户的所有与工作历史相关的请求。
命令: ./mr-jobhistory-daemon.sh启动historyserver
第14步:要检查所有Hadoop服务已启动并正在运行,请运行以下命令。
命令: jps
图:Hadoop安装 - 检查守护进程
第15步:现在打开Mozilla浏览器并转到localhost:50070 / dfshealth.html以检查NameNode接口。
图:Hadoop安装 - 启动WebUI
恭喜,您已经成功安装了单个节点的Hadoop集群。 在下一篇Hadoop教程系列博客中,我们将介绍如何在多节点集群上安装Hadoop。