Ubuntu 16.04 下搭建 Hadoop 3.1.1 集群

SolomonAnn

已于 2023-11-02 10:08:07 修改

阅读量841

点赞数

分类专栏：教程类文章标签： hadoop ubuntu 集群配置

于 2018-12-07 00:05:52 首次发布

本文链接：https://blog.csdn.net/SolomonAnn/article/details/84867378

版权

教程类专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Ubuntu 16.04 下搭建 Hadoop 3.1.1 集群

环境说明
前期准备
配置JDK
配置Hadoop
测试配置结果

注：

以下标 $\star$ 的步骤需要在三台机器上各自完成，其余只需要在 $ma s t er$ 上完成；
教程中涉及的用户名、路径和 $I P$ 地址等信息根据实际情况填入即可。

环境说明

$Ubuntu\ 16.04$ 虚拟机三台，内存为 $4 GB$ ;
$J DK$ 环境（最新版本为 $1.8.0\_191$ ）;
$H a d oo p$ 环境（最新版本为 $3.1.1$ ）。

前期准备

修改主机名 $\star$
- 修改 $h os t nam e$ ：一台修改为 $ma s t er$ ，另外两台分别修改为 $s l a v e 1$ 和 $s l a v e 2$ 。
```
ubuntu@VM-0-16-ubuntu:~$ sudo vim /etc/hostname
```
- 修改 $h os t s$ ：添加新的主机名。
```
ubuntu@VM-0-16-ubuntu:~$ sudo vim /etc/hosts
```
  以 $ma s t er$ 为例：
```
127.0.0.1 localhost
127.0.1.1 master
```
- 执行重启命令。
```
ubuntu@VM-0-16-ubuntu:~$ sudo reboot
```
  重启后显示如下则表示修改成功。
```
ubuntu@master:~$ 
```
配置 $h os t s$ 文件 $\star$
将三台虚拟机的内网 $I P$ 及主机名写入 $h os t s$ 文件。
```
172.21.0.16 master
172.21.0.2 slave1
172.21.0.10 slave2
```
关闭防火墙 $\star$
- 查看防火墙状态： $a c t i v e$ 为开启， $ina c t i v e$ 为关闭。
```
ubuntu@master:~$ sudo ufw status
```
- 开启/关闭防火墙。
```
ubuntu@master:~$ sudo ufw enable|disable
```
安装 $SS H$ $\star$
- 更新源列表。
```
ubuntu@master:~$ sudo apt-get update
```
- 安装 $SS H$ 。
```
ubuntu@master:~$ sudo apt-get install openssh-server
```
- 查看 $SS H$ 服务是否启动。
```
ubuntu@master:~$ sudo ps -e | grep ssh
```
  若没有，则启动 $SS H$ 服务。
```
ubuntu@master:~$ sudo service ssh start
```
设置 $SS H$ 无密码登录
- 生成 $k ey$ 。 $\star$
```
ubuntu@master:~$ ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
```
- 设置免密码登录本机。 $\star$
```
ubuntu@master:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ubuntu@master:~$ chmod 0600 ~/.ssh/authorized_keys
ubuntu@master:~$ ssh localhost
ubuntu@master:~$ exit
```
- $ma s t er$ 设置免密码登录 $s l a v e$ 。
```
ubuntu@master:~$ ssh-copy-id -i ~/.ssh/id_rsa.pub slave1
ubuntu@master:~$ ssh-copy-id -i ~/.ssh/id_rsa.pub slave2
```

配置JDK

通过源安装 $Oracle\ JDK$ $\star$
```
ubuntu@master:~$ cd /usr/lib
ubuntu@master:/usr/lib$ sudo add-apt-repository ppa:webupd8team/java
ubuntu@master:/usr/lib$ sudo apt-get update
ubuntu@master:/usr/lib$ sudo apt-get install oracle-java8-installer oracle-java8-set-default
```
配置 $J DK$ 环境 $\star$
```
ubuntu@master:~$ sudo vim /etc/profile
```
在 $/ e t c / p ro f i l e$ 文件末尾处添加：
```
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
```
查看 $J a v a$ 版本信息,若出现则说明配置成功。
```
ubuntu@master:~$ source /etc/profile
ubuntu@master:~$ java -version
```

配置Hadoop

安装 $H a d oo p$
从 $H a d oo p$ 官网下载压缩包并解压：
```
ubuntu@master:~$ tar -zxvf hadoop-3.1.1.tar.gz
```
配置 $H a d oo p$ 环境 $\star$
同样是修改 $/ e t c / p ro f i l e$ 文件，在其末尾添加：
```
export HADOOP_HOME=/home/ubuntu/hadoop-3.1.1
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
```
然后执行 $so u rce$ 命令使其立即生效。
```
ubuntu@master:~$ source /etc/profile
```

新建相关文件夹

ubuntu@master:~$ mkdir /home/ubuntu/hadoop-3.1.1/hdfs
ubuntu@master:~$ mkdir /home/ubuntu/hadoop-3.1.1/hdfs/tmp
ubuntu@master:~$ mkdir /home/ubuntu/hadoop-3.1.1/hdfs/name
ubuntu@master:~$ mkdir /home/ubuntu/hadoop-3.1.1/hdfs/node

配置相关文件

进入相关路径。

ubuntu@master:~$ cd /home/ubuntu/hadoop-3.1.1/etc/hadoop

配置 $core - s i t e . x m l$ 。
```
<configuration>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/home/ubuntu/hadoop-3.1.1/hdfs/tmp</value>
  </property>
  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
  </property>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>
```
配置 $ha d oo p - e n v . s h$ 。
```
# The java implementation to use. By default, this environment 
# variable is REQUIRED on ALL platforms except OS X!
export JAVA_HOME=/usr/lib/jvm/java-8-oracle

export HDFS_NAMENODE_USER=ubuntu
export HDFS_DATANODE_USER=ubuntu
export HDFS_SECONDARYNAMENODE_USER=ubuntu
export YARN_RESOURCEMANAGER_USER=ubuntu
export YARN_NODEMANAGER_USER=ubuntu
```

配置

h df s - s i t e . x m l

。

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/ubuntu/hadoop-3.1.1/hdfs/name</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/ubuntu/hadoop-3.1.1/hdfs/data</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9870</value>
  </property>
  <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
  </property>
    <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>
</configuration>

配置 $y a r n - s i t e . x m l$ 。
```
<configuration>

  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
```

配置

ma p re d - s i t e . x m l

。

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
  <property>
    <name>mapreduce.map.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
  <property>
    <name>mapreduce.reduce.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
    
  <property>
    <name>mapred.job.tracker</name>
    <value>master:9001</value>
  </property>
    
  <property>
    <name>mapreduce.map.memory.mb</name>
    <value>1536</value>
  </property>
  <property>
    <name>mapreduce.map.java.opts</name>
    <value>-Xmx1024M</value>
  </property>
  <property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>3072</value>
  </property>
  <property>
    <name>mapreduce.reduce.java.opts</name>
    <value>-Xmx2560M</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
  </property>
</configuration>

配置 $w or k ers$ 。
```
slave1
slave2
```

添加 $h df s$ 和 $y a r n$ 权限
- 在 $s t a r t - df s . s h$ 和 $s t o p - df s . s h$ 文件开头添加以下内容：
```
% #!/usr/bin/env bash

HDFS_DATANODE_USER=ubuntu
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=ubuntu
HDFS_SECONDARYNAMENODE_USER=ubuntu
```
- 在 $s t a r t - y a r n . s h$ 和 $s t o p - y a r n . s h$ 文件开头添加以下内容：
```
#!/usr/bin/env bash

YARN_RESOURCEMANAGER_USER=ubuntu
HDFS_DATANODE_SECURE_USER=yarn
YARN_NODEMANAGER_USER=ubuntu
```
从主机相关配置（将 $H a d oo p$ 相关文件夹拷贝到 $s l a v e$ 中）
```
ubuntu@master:~$ scp -r /home/ubuntu/hadoop-3.1.1 ubuntu@slave1:/home/ubuntu
ubuntu@master:~$ scp -r /home/ubuntu/hadoop-3.1.1 ubuntu@slave2:/home/ubuntu
```

测试配置结果

格式化 $nam e n o d e$
```
ubuntu@master:~/hadoop-3.1.1$ hdfs namenode -format
```

启动

H a d oo p

ubuntu@master:~/hadoop-3.1.1$ sbin/start-all.sh
WARNING: Attempting to start all Apache Hadoop daemons as ubuntu in 10 seconds.
WARNING: This is not a recommended production deployment configuration.
WARNING: Use CTRL-C to abort.
Starting namenodes on [master]
Starting datanodes
Starting secondary namenodes [master]
Starting resourcemanager
Starting nodemanagers

查看进程

\star

ubuntu@master:~$ jps
5303 NameNode
7837 Jps
5773 ResourceManager

ubuntu@slave1:~$ jps
30757 NodeManager
491 Jps
30621 DataNode

ubuntu@slave2:~$ jps
30834 NodeManager
30696 DataNode
813 Jps

测试配置结果

ubuntu@master:~/hadoop-3.1.1$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar pi 10 10

显示以下结果说明运行成功：

Job Finished in 25.033 seconds
Estimated value of Pi is 3.20000000000000000000

参考资料：

SolomonAnn

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Ubuntu 16.04 下搭建 Hadoop 3.1.1 集群

Ubuntu 16.04 下搭建 Hadoop 3.1.1 集群环境说明前期准备配置JDK配置Hadoop测试配置结果注：以下标 ⋆\star⋆ 的步骤需要在三台机器上各自完成，其余只需要在 mastermastermaster 上完成；教程中涉及到的用户名、路径和 IPIPIP 地址等信息根据实际情况填入即可。环境说明Ubuntu&nbsp;16.04Ubuntu\ 16.04...
复制链接

扫一扫