Hadoop搭建-小白友好系

银晗

已于 2022-09-07 16:59:11 修改

阅读量3.7k

点赞数 21

分类专栏：教程操作文章标签： hadoop java linux

于 2022-08-31 13:09:09 首次发布

本文链接：https://blog.csdn.net/RandyHan/article/details/126620257

版权

教程操作专栏收录该内容

5 篇文章 1 订阅

订阅专栏

Hadoop搭建-全程CV一条龙：

文章目录

Hadoop搭建-全程CV一条龙：
伪分布式配置：
- 运行实例：
分布式Hadoop

阅读前提：我是安装的 ubuntu20.04 系统（版本可以低，不能高），确认好你也安装好了ubuntu方便配合食用

Ubuntu参考教程：Ubuntu系统安装

创建用户

sudo useradd -m hadoop -s /bin/bash

设置密码

sudo passwd hadoop

为 hadoop 用户增加管理员权限

sudo adduser hadoop sudo

到这里用户创建完毕，点击ubuntu桌面右上角的电源按钮，点log out （退出当前用户登录）然后登录hadoop用户

必要组件安装

sudo apt-get update

sudo apt-get install vim

配置SSH

sudo apt-get install openssh-server

ssh localhost

首次ssh登录，记得输入yes

但这样登陆是需要每次输入密码的，我们需要配置成SSH无密码登陆比较方便。

首先退出刚才的 ssh，就回到了我们原先的终端窗口，然后利用 ssh-keygen 生成密钥，并将密钥加入到授权中：

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时再用 ssh localhost 命令，无需输入密码就可以直接登陆了

安装Java

安装JDK方式

1. sudo apt install openjdk-8-jdk

2. sudo apt-get install openjdk-8-jre openjdk-8-jdk

安装好 OpenJDK 后，需要找到相应的安装路径，这个路径是用于配置 JAVA_HOME 环境变量的。执行如下命令：

有同学有这个错误

在这里插入图片描述

先把java卸载了，试试这样安装吧~

sudo apt install openjdk-8-jdk

查看安装路径（没输出也没关系，你知道装在哪就行）

dpkg -L openjdk-8-jdk | grep '/bin/javac'

该命令会输出一个路径，除去路径末尾的 “/bin/javac”，剩下的就是正确的路径了。如输出路径为 /usr/lib/jvm/java-7-openjdk-amd64/bin/javac，则我们需要的路径为 /usr/lib/jvm/java-7-openjdk-amd64。

配置一下 JAVA_HOME 环境变量

sudo vim ~/.bashrc

export JAVA_HOME=JDK安装路径

记得改成java-8！！！我的是7

source ~/.bashrc    # 使变量设置生效

echo $JAVA_HOME     # 检验变量值
java -version
$JAVA_HOME/bin/java -version  # 与直接执行 java -version 一样

如果设置正确的话，$JAVA_HOME/bin/java -version 会输出 java 的版本信息，且和 java -version 的输出结果一样

这样，Hadoop 所需的 Java 运行环境就安装好了!

安装Hadoop：

Hadoop 2 可以通过 http://mirror.bit.edu.cn/apache/hadoop/common/ 或者 http://mirrors.cnnic.cn/apache/hadoop/common/ 下载，一般选择下载最新的稳定版本，即下载 “stable” 下的 hadoop-2.x.y.tar.gz 这个格式的文件，这是编译好的，版本选择2.7.1

我们选择将 Hadoop 安装至 /usr/local/ 中：

sudo tar -zxf ~/下载/hadoop-2.7.1.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.7.1/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用，成功则会显示 Hadoop 版本信息：

cd /usr/local/hadoop
./bin/hadoop version

显示版本说明您已经安装配置好了！！！

伪分布式配置：

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件 core-site.xml (通过 gedit 编辑会比较方便: sudo gedit ./etc/hadoop/core-site.xml)，将当中的

<configuration>
</configuration>

修改为->

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

同样的，修改配置文件 hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

配置完成后，执行 NameNode 的格式化:

cd /usr/local/hadoop
./bin/hdfs namenode -format

成功的话，会看到 successfully formatted 和 Exitting with status 0 的提示，若为 Exitting with status 1 则是出错。

在这里插入图片描述
如果你出错了，不要慌！去看看上面的log信息，它会显示你的hadoop哪里出了问题，有时候还会告诉你怎么接近，复制一下报错信息，去查一下；或者把配置文件重新来cv一下，保证不错

接着开启 NameNode 和 DataNode 守护进程。

cd /usr/local/hadoop
./sbin/start-dfs.sh  #start-dfs.sh是个完整的可执行文件，中间没有空格

记得输入yes

启动时可能会出现如下 WARN 提示：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable WARN 提示可以忽略，并不会影响正常使用。

启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”
（如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试）。如果没有 NameNode 或 DataNode ，那就是配置不成功，请仔细检查之前步骤，或通过查看启动日志排查原因。

在这里插入图片描述

显示出，以上界面，说明成功！

此外，若是 DataNode 没有启动，可尝试如下的方法（注意这会删除 HDFS 中原有的所有数据，如果原有的数据很重要请不要这样做）：

# 针对 DataNode 没法启动的解决方法
cd /usr/local/hadoop
./sbin/stop-dfs.sh   # 关闭
rm -r ./tmp     # 删除 tmp 文件，注意这会删除 HDFS 中原有的所有数据
./bin/hdfs namenode -format   # 重新格式化 NameNode
./sbin/start-dfs.sh  # 重启

成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

运行实例：

伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录：

./bin/hdfs dfs -mkdir -p /user/hadoop

2. 将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户，并且已创建相应的用户目录 /user/hadoop ，因此在命令中就可以使用相对路径如 input，其对应的绝对路径就是 /user/hadoop/input:

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

#复制完成后，可以通过如下命令查看文件列表：
./bin/hdfs dfs -ls input

#运行
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

#查看结果
./bin/hdfs dfs -cat output/*

#我们也可以将运行结果取回到本地：
rm -r ./output    # 先删除本地的 output 文件夹（如果存在）
./bin/hdfs dfs -get output ./output     # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*

Hadoop 运行程序时，输出目录不能存在，否则会提示错误 org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists

因此若要再次执行，需要执行如下命令删除 output 文件夹:

./bin/hdfs dfs -rm -r output    # 删除 output 文件夹

关闭hadoop

./sbin/stop-dfs.sh

注意下次启动 hadoop 时，无需进行 NameNode 的初始化，只需要运行 ./sbin/start-dfs.sh 就可以！

分布式Hadoop

Hadoop 集群的安装配置大致为如下流程:

选定一台虚拟机作为 Master
在 Master 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境
在 Master 节点上安装 Hadoop，并完成配置
在其他 Slave 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境
将 Master 节点上的 /usr/local/hadoop 目录复制到其他 Slave 节点上
在 Master 节点上开启 Hadoop

继续下一步配置前，请先完成上述流程的前 4 个步骤,也就是上文搭建Hadoop的步骤。

网络配置

Linux 中查看节点 IP 地址的命令为 ifconfig，即下图所示的 inet 地址

192.168.25.134 : 这是我电脑的地址，你也记录一下你自己的

小坑警告：首先在 Master 节点上完成准备工作，并关闭 Hadoop (执行这行命令：/usr/local/hadoop/sbin/stop-dfs.sh)，再进行后续集群配置。

为了便于区分，可以修改各个节点的主机名（在终端标题、命令行中可以看到主机名，以便区分）。在 Ubuntu/CentOS 7 中，我们在 Master 节点上执行如下命令修改主机名（即改为 Master，注意是区分大小写的）：

sudo vim /etc/hostname

把ubuntu修改成Master（后面创建Slave1&Slave2也一样要进行hostname的修改，修改完名字记得重启一下才会生效！）

然后执行如下命令修改自己所用节点的IP映射：

sudo vim /etc/hosts

在这里插入图片描述

localhost可以留下，Master和Slave1改成我这种格式（现在你可能没有Slave1，先别写，往下看，等会会有Slave1的，你再回来加上Slave1就ok）

修改完成后需要重启一下，重启后在终端中才会看到机器名的变化。接下来的教程中请注意区分 Master 节点与 Slave 节点的操作。

重启后显示Master就对了！

配置好后需要在各个节点上执行如下命令，测试是否相互 ping 得通，如果 ping 不通，后面就无法顺利配置成功：

ping Master -c 3   # 只ping 3次，否则要按 Ctrl+c 中断
ping Slave1 -c 3
ping Slave2 -c 3

例如我在 Master 节点上` ping Slave1`，ping 通的话会显示 time，显示的结果如下图所示：

现在你还没有Slave1/2（等会儿会有别急），先ping一下Master（就是自己ping自己，看行不行，也就是检查你ip映射对不对），我ping Slave1 做参考
不成功
成功

继续下一步配置前，请先完成所有节点的网络配置，修改过主机名的话需重启才能生效

创建你的Slave1&Slave2

很简单，一句话，虚拟机克隆

在这里插入图片描述

点克隆
记得关掉虚拟机，不然无法克隆哦！

在这里插入图片描述

点完成，等它加载完，就ok了！
Slave2的创建和Slave1 一样，再虚拟机克隆一次就行了！

SSH无密码登录

这里对新手有点繁琐，其实根本不用，这里配置那么多，就是为了少输入一行这一个操作而已，如果怕出错请跳过这里，丝毫不影响！

这个操作是要让 Master 节点可以无密码 SSH 登陆到各个 Slave 节点上。

首先生成 Master 节点的公匙，在 Master 节点的终端中执行（因为改过主机名，所以还需要删掉原有的再重新生成一次）：

cd ~/.ssh               # 如果没有该目录，先执行一次ssh localhost
rm ./id_rsa*            # 删除之前生成的公匙（如果有）
ssh-keygen -t rsa       # 一直按回车就可以

#让 Master 节点需能无密码 SSH 本机，在 Master 节点上执行：
cat ./id_rsa.pub >> ./authorized_keys

#完成后可执行 ssh Master 验证一下（可能需要输入 yes，成功后执行 exit 返回原来的终端）。

#接着在 Master 节点将上公匙传输到 Slave1 节点：
scp ~/.ssh/id_rsa.pub hadoop@Slave1:/home/hadoop/

在这里插入图片描述

接着在 Slave1 节点上，将 ssh 公匙加入授权：

mkdir ~/.ssh       # 如果不存在该文件夹需先创建，若已存在则忽略
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub    # 用完就可以删掉了

Slave2同理，如果有其他 Slave 节点，也要执行将 Master 公匙传输到 Slave 节点、在 Slave 节点上加入授权这两步。

这样，在 Master 节点上就可以无密码 SSH 到各个 Slave 节点了，可在 Master 节点上执行如下命令进行检验，如下图所示：

ssh Slave1
ssh Slave2

在这里插入图片描述

Master上成功登录Slave1
退出，回到Master

在这里插入图片描述

配置Path环境变量

在单机伪分布式配置教程的最后，说到可以将 Hadoop 安装目录加入 PATH 变量中，这样就可以在任意目录中直接使用 hadoo、hdfs 等命令了，如果还没有配置的，需要在 Master 节点上进行配置。首先执行 vim ~/.bashrc，加入一行：

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

在这里插入图片描述

保存后执行source ~/.bashrc使配置生效。

配置集群/分布式环境

确保你前面的步骤顺利完成

此步骤工作目录：/usr/local/hadoop/etc/hadoop

集群/分布式模式需要修改 /usr/local/hadoop/etc/hadoop 中的5个配置文件，更多设置项可点击查看官方说明，这里仅设置了正常启动所必须的设置项： slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 。

1, 文件 slaves，将作为 DataNode 的主机名写入该文件，每行一个，默认为 localhost，所以在伪分布式配置时，节点即作为 NameNode 也作为 DataNode。分布式配置可以保留 localhost，也可以删掉，让 Master 节点仅作为 NameNode 使用。

我让Master 节点仅作为 NameNode 使用，所以我用三行：localhost，Master，Slave1

在这里插入图片描述

2, 文件 core-site.xml 改为下面的配置：

sudo vim core-site.xml

插入内容，记得按下 i ,更改完毕记得按下 Esc

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://Master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
</configuration>

# 保存退出
Shift + : wq

文件 hdfs-site.xml，dfs.replication 一般设为 3

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>Master:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

文件 mapred-site.xml （可能需要先重命名，默认文件名为 mapred-site.xml.template）

sudo mv  mapred-site.xml.template  mapred-site.xml

然后配置修改如下：

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>Master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>Master:19888</value>
        </property>
</configuration>

文件 yarn-site.xml：

<configuration>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>Master</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

配置好后，将 Master 上的 /usr/local/Hadoop 文件夹复制到各个节点上。因为之前有跑过伪分布式模式，建议在切换到集群模式前先删除之前的临时文件。在 Master 节点上执行：

cd /usr/local
sudo rm -r ./hadoop/tmp     # 删除 Hadoop 临时文件
sudo rm -r ./hadoop/logs/*   # 删除日志文件
tar -zcf ~/hadoop.master.tar.gz ./hadoop   # 先压缩再复制
cd ~
scp ./hadoop.master.tar.gz Slave1:/home/hadoop

在 Slave1 节点上执行：

sudo rm -r /usr/local/hadoop    # 删掉旧的（如果存在）
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/hadoop

同样，如果有其他 Slave 节点，也要执行将 hadoop.master.tar.gz 传输到 Slave 节点、在 Slave 节点解压文件的操作。

首次启动需要先在 Master 节点执行 NameNode 的格式化：

hdfs namenode -format       # 首次运行需要执行初始化，之后不需要

接着可以启动 hadoop 了，启动需要在 Master 节点上进行：

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

通过命令 jps 可以查看各个节点所启动的进程。正确的话，在 Master 节点上可以看到 NameNode、ResourceManager、SecondrryNameNode、JobHistoryServer 进程，如下图所示：

在这里插入图片描述

在 Slave 1节点可以看到 DataNode 和 NodeManager 进程，如下图所示：

在这里插入图片描述

在 Slave 2节点也可以看到 DataNode 和 NodeManager 进程，如下图所示：

在这里插入图片描述

缺少任一进程都表示出错。另外还需要在 Master 节点上通过命令 hdfs dfsadmin -report 查看 DataNode 是否正常启动，如果 Live datanodes 不为 0 ，则说明集群启动成功。例如我这边一共有 1 个 Datanodes：

在这里插入图片描述

也可以通过 Web 页面看到查看 DataNode 和 NameNode 的状态：http://master:50070/。如果不成功，可以通过启动日志排查原因。

浏览器查看

查看DataNodes
查看信息

在这里插入图片描述

小坑提示

伪分布式、分布式配置切换时的注意事项
1, 从分布式切换到伪分布式时，不要忘记修改 slaves 配置文件；
2, 在两者之间切换时，若遇到无法正常启动的情况，可以删除所涉及节点的临时文件夹，这样虽然之前的数据会被删掉，但能保证集群正确启动。所以如果集群以前能启动，但后来启动不了，特别是 DataNode 无法启动，不妨试着删除所有节点（包括 Slave 节点）上的 /usr/local/hadoop/tmp 文件夹，再重新执行一次 hdfs namenode -format，再次启动试试。

分布式实例

执行分布式实例过程与伪分布式模式一样，首先创建 HDFS 上的用户目录：

hdfs dfs -mkdir -p /user/hadoop

hdfs dfs -mkdir input
hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

可能会有点慢，但如果迟迟没有进度，比如 5 分钟都没看到进度，那不妨重启 Hadoop 再试试。若重启还不行，则很有可能是内存不足引起，建议增大虚拟机的内存，或者通过更改 YARN 的内存配置解决。（对电脑内存高，要求比较高，轻薄本的同学注意一下，死机啥的别慌哦）

执行过程会返回INFO
最后返回结果

在这里插入图片描述

查看output文件夹

在这里插入图片描述

同样可以通过 Web 界面查看任务进度 http://master:8088/cluster ，在 Web 界面点击 `“Tracking UI”` 这一列的 History 连接，可以看到任务的运行信息，如下图所示：

在这里插入图片描述

执行结果：

在这里插入图片描述

关闭 Hadoop 集群也是在 Master 节点上执行的：

stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

关闭hadoop集群

在这里插入图片描述

此外，同伪分布式一样，也可以不启动 YARN，但要记得改掉 mapred-site.xml 的文件名。

自此，你就掌握了 Hadoop 的集群搭建与基本使用了。

俺不厚脸皮要求三连，给个赞和收藏就行了 QAQ

在这里插入图片描述

我热爱Big Data & AI，如果志同道合，call me ！！！我需要小伙伴 explore together，QQ：1513032551

-> 我是裤裤的男子

在这里插入图片描述

银晗

关注

21
点赞
踩
27

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop搭建-小白友好系

Hadoop搭建-全程CV一条龙：

文章目录

创建用户

必要组件安装

配置SSH

安装Java

安装Hadoop：

伪分布式配置：

运行实例 ：

分布式Hadoop

Hadoop 集群的安装配置大致为如下流程:

网络配置

创建你的Slave1&Slave2

SSH无密码登录

配置Path环境变量

配置集群/分布式环境

浏览器查看

小坑提示

分布式实例

运行实例：