Hadoop集群安装与配置

最新推荐文章于 2024-08-04 13:23:56 发布

古月慕南

最新推荐文章于 2024-08-04 13:23:56 发布

阅读量1.3k

点赞数

分类专栏： BigData-器文章标签： hadoop yarn hadoop集群双节点

本文链接：https://blog.csdn.net/u013468917/article/details/50965530

版权

BigData-器专栏收录该内容

18 篇文章 1 订阅

订阅专栏

本文介绍Hadoop在两个节点上的安装与配置即一个master和一个slave，安装版本为2.2.0，该版本及以上版本的安装方式几乎一致。需要注意的是hadoop使用Java语言编写，所以在安装Hadoop之前需要在机器上安装好Java运行环境（JDK），配置好环境变量。此外，每个节点都需要配置好静态ip地址以及设置好主机名，并将主机名写入hosts文件中。以及设置防火墙，或者直接关闭防火墙。

一、安装JDK

本例中使用的是JDK1.7，读者可以点击这里下载。可以根据自己的系统下载32位或者64位的安装包。安装文件以tar.gz结尾。将压缩包上传至linux系统，cd到文件所在目录，执行：

tar  -zxvf jdk-7u79-linux-x64.tar.gz -C /cloud/

将文件解压至/cloud/目录，注意：将jdk-7u79-linux-x64.tar.gz 替换成你自己下载的文件名。然后输入以下命令：

sudo vim /etc/profile

如果要输入密码，输入即可。在文件末尾添加以下代码：

export  JAVA_HOME=/cloud/jdk1.7.0_80
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH

保存退出
source /etc/profile使配置生效

二、下载解压Hadoop

http://archive.apache.org/dist/hadoop/core/

用户可以从这个站点下载Hadoop所有版本的安装包，如果下载预编译版本，需要与机器位数和操作系统相匹配。也可以自己下载源码包自行编译。

将下载的 hadoop-2.2.0.tar.gz安装包上传至linux系统中，cd至文件所在目录，进行解压：

tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/

将安装包解压至根目录下的cloud文件夹中。注意这里的-C为大写。

三、配置文件

将Hadoop解压后，cd /cloud/hadoop-2.2.0/etc/hadoop

1、配置hadoop-env.sh

运行命令：vim hadoop-env.sh

在第一行添加：

export JAVA_HOME=/cloud/jdk1.7.0_80

wq保存退出

2、配置core-site.xml

添加：

<configuration>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>file:/cloud/hadoop-2.2.0/tmp</value>
    <description>Abase for other temporary directories.</description>
</property>
</configuration>

其中master是主节点的主机名，这两个字段分别是为了记录主节点地址和临时文件存放路径。

3、配置hdfs-site.xml

添加：

<configuration>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:50090</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/cloud/hadoop-2.2.0/tmp/dfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/cloud/hadoop-2.2.0/tmp/dfs/data</value>
</property>
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
</configuration>

这几个字段分别制定：hdfs的主节点的通信地址、namenode的临时文件存放路径、datanode的文件存放路径、每个文件存放的副本数量。

4、配置mapred-site.xml

目录中没有这个文件，可以cp mapred-site.xml.template mapred-site.xml复制一份过来。
添加：

<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
</configuration>

5、配置yarn-site.xml

添加：

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
</configuration>

6、配置slaves

由于本次示例是双节点配置即一个master和一个slave，所以在该文件中只需要添加从节点的主机名：

slave1

四、添加环境变量

在/etc/profile文件中添加：

export HADOOP_HOME=/cloud/hadoop-2.2.0
export HADOOP_CONF_DIR=/cloud/hadoop-2.2.0/etc/hadoop
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存退出

source /etc/profile使配置生效