CentOS 7 之Hadoop集群搭建 (详细版)

最新推荐文章于 2023-01-29 18:03:42 发布

johnnyAndCode

最新推荐文章于 2023-01-29 18:03:42 发布

阅读量1.1k

点赞数 3

本文链接：https://blog.csdn.net/qq_41983010/article/details/84666489

版权

本文旨在提供最基本的，可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建，对自己是个总结和整理，也能方便新人学习使用。

一、基础环境

在Linux上安装Hadoop之前，需要先安装两个程序：

1.1 安装说明

1. JDK 1.6或更高版本（本文所提到的安装的是jdk1.8）;

2. SSH(安全外壳协议)，推荐安装OpenSSH。

下面简述一下安装这两个程序的原因：

1. Hadoop是用Java开发的，Hadoop的编译及MapReduce的运行都需要使用JDK。

2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上的进程，只不过伪分布式中salve为localhost(即为自身)，所以对于伪分布式Hadoop，SSH一样是必须的。

1.1 JDK的安装与配置

1、上传压缩包

我这里使用的是xftp 5 工具上传jdk-8u191-linux-x64.tar.gz压缩包到指定位置

我是在/opt/workspace/

2、解压压缩包

tar -zxvf jdk-8u191-linux-x64.tar.gz

3、重命名

mv jdk-8u191-linux-x64.tar.gz jdk.8

4、配置环境变量 vi 或者vim

vi /etc/profile

添加 export JAVA_HOME=/opt/workspace/jdk1.8

export CLASSPATH=${JAVA_HOME}/lib:${JAVA_HOME}/jre/lib

export PATH=$PATH:${JAVA_HOME}/bin:${JAVA_HOME}/jre/bin

保存退出并刷新 source /etc/profile

然后试一下是否成功 java-version

二、Host配置

由于我搭建Hadoop集群包含三台虚拟机，所以需要修改调整各台机器的hosts文件配置，进入/etc/hosts，配置主机名和ip的映射，命令如下：

vim /etc/hosts

如果没有足够的权限，可以切换用户为root。或者 chmod 777 需要权限的文件

三台机器的内容统一增加以下host配置：

可以通过hostname来修改服务器名称为master、slave1、slave2

hostname master

三、Hadoop的安装与配置

3.1 创建文件目录

为了便于管理，给Master的hdfs的NameNode、DataNode及临时文件，在用户目录下创建目录：

/data/hdfs/name

/data/hdfs/data

/data/hdfs/tmp

然后将这些目录通过scp命令拷贝到Slave1和Slave2的相同目录下。

3.2 下载

我用的是 hadoop-2.7.3.tar.gz

链接：https://pan.baidu.com/s/1XesKilnkNVAxQHkecMmJcQ
提取码：meod

或者官网 https://hadoop.apache.org/releases.html

解压到workspace目录

tar -zxvf hadoop-2.7.3.tar.gz

3.3 配置环境变量

vi /etc/profile

请看开头第一张图

配好刷新资源 source /etc/profile

此时输入 hadoop 回车会有资源加载表示成功如下图（目录别在意，懒得切换回去了）

3.4 Hadoop的配置

进入hadoop-2.7.3的配置目录：

cd ./hadoop2.7/etc/hadoop

依次修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml以及slaves文件。

3.4.1 修改core-site.xml

vi core-site.xml

<property>
   <name>hadoop.tmp.dir</name>
   <value>/home/hadoopdir/dfs/data</value>
   <description>A base for other temporary directories.</description>
 </property>
 <property>
   <name>io.file.buffer.size</name>
   <value>131072</value>
 </property>
 <property>
   <name>fs.default.name</name>
   <value>hdfs://master:9000</value>
 </property>
 <property>
 <name>hadoop.proxyuser.root.hosts</name>
 <value>*</value>
 </property>
 <property>
 <name>hadoop.proxyuser.root.groups</name>
 <value>*</value>
 </property>

3.4.2 修改vim hdfs-site.xml

vim hdfs-site.xml

<property>
 <name>dfs.replication</name>
   <value>2</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>/home/hadoopdir/dfs/name</value>
   <final>true</final>
 </property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>/home/hadoopdir/dfs/data</value>
   <final>true</final>
 </property>
 <property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>master:9001</value>
 </property>
 <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
 </property>
 <property>
   <name>dfs.permissions</name>
   <value>false</value>
 </property>

3.4.3 修改vim mapred-site.xml

复制template，生成xml，命令如下：

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

<configuration>
 
 <property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
 
 </configuration>

3.4.4 修改vim yarn-site.xml

vim yarn-site.xml

<property>
 <name>yarn.resourcemanager.address</name>
   <value>master:8032</value>
 </property>
 <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>master:8030</value>
 </property>
 <property>
   <name>yarn.resourcemanager.webapp.address</name>
   <value>master:8088</value>
 </property>
 <property>
   <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>master:8031</value>
 </property>
 <property>
   <name>yarn.resourcemanager.admin.address</name>
   <value>master:8033</value>
 </property>
 <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
 </property>
 <property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
 <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1024</value>
 </property>
 <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>1</value>
 </property>

hadoop-env.sh与yarn-env.sh这两个文件不用修改，因为里面的配置是：

export JAVA_HOME=${JAVA_HOME}

真想改也可以改成对应的路径。

3.4.5 修改data/hadoop-2.7.3/etc/hadoop/slaves

将原来的localhost删除，切换到conf目录改成如下内容

vi ./slaves