【大数据学习】在云服务器安装配置伪分布式Hadoop

最新推荐文章于 2024-04-30 15:03:06 发布

锦诚明

最新推荐文章于 2024-04-30 15:03:06 发布

阅读量1.2k

点赞数 1

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/qq_40977710/article/details/106474480

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前言

因为疫情，阿里云送给学生一个2核、4GiB内存、1Mbps宽带的云服务器半年，相当于每个月补贴100多了，对我来说，学习帮助很大。刚好又要上大数据云计算的课，要在本地使用虚拟机学习，操作不方便，而且还耗电脑资源，电脑卡又经常报莫名的错，所以我决定用阿里云服务器来学习，因为只有一条机器，所以只能用伪分布式的方式。

这里有介绍我的操作过程，主要还是参考林子雨老师的博客，但是我不喜欢用虚拟机，所以另外操作了，这篇对云服务器的操作流程大概应该也可以用在WSL上，不过WSL上的具体实践我还没做过。

在操作之前我已经对云服务器做了一些初始化，用了ubuntu18.04系统，已经安装好JAVA环境了。

需要掌握一定的linux命令基础，会使用vim进行简单操作，对linux系统有了解，熟悉阿里云服务器的实例操作。

1、使用远程连接工具登录

远程连接用来操作云服务器。这里使用MobaXterm软件来远程连接，当然也可以选择Xshell或者其他，这里不做介绍。按照如下设置：

连接设置

提示输入密码，输入成功后即可进入操作了，提示本地保存密码，选择确定，方便以后建立连接。进入默认会有显示一段SSH banner。

ssh远程连接会在无操作时自动断开连接。为了保持程序运行和连接，需要设置保持连接。在mobaxterm中设置ssh长连接：setting>SSH>SSH settings>SSH keepalive 选中该选项。

2、创建hadoop用户

如果安装 Ubuntu 的时候不是用的 “hadoop” 用户，那么需要增加一个名为 hadoop 的用户。如下命令：

sudo useradd -m hadoop -s /bin/bash

这条命令创建了可以登陆的 hadoop 用户，并使用 /bin/bash 作为 shell。

接下来设置密码，可简单设置为 ”hadoop”，按提示输入两次密码（不会显示输入状态的）：

sudo passwd hadoop

可为 hadoop 用户增加管理员权限，方便部署

sudo adduser hadoop sudo

添加管理员权限

sudo命令

本文中会大量使用到sudo命令。sudo是ubuntu中一种权限管理机制，管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时，就需要输入您当前用户的密码。

密码

在Linux的终端中输入密码，终端是不会显示任何你当前输入的密码，也不会提示你已经输入了多少字符密码。而在windows系统中,输入密码一般都会以“*”表示你输入的密码字符。

Ubuntu终端复制粘贴快捷键

在Ubuntu终端窗口中，复制粘贴的快捷键需要加上 shift，即粘贴是 ctrl+shift+v。

在Mobaxterm的终端中选中文字就自动复制了，使用右键可以快捷粘粘。

使用hadoop账户登录

登录成功，可以进行后序操作。

3、安装SSH、配置SSH无密码登陆

（1）安装SSH

集群、单节点模式都需要用到 SSH 登陆，Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server：

sudo apt-get install openssh-server

安装后，可以使用如下命令登陆本机：

ssh localhost

如果是首次登录，会有如下提示，按照提示输入密码，输入之前我们设置的是hadoop，这样就登陆成功了。

在这里插入图片描述

但这样登陆是需要每次输入密码的

SSH登录

（2）配置SSH无密码登陆

首先退出刚才的 ssh，就回到了原先的终端窗口，然后利用 ssh-keygen 生成密钥，并将密钥加入到授权中：

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时再用 ssh localhost 命令，无需输入密码就可以直接登陆了。

4、安装Java环境

Hadoop3.1.3需要JDK版本在1.8及以上。

因为在写本文之前我已经安装好java环境了，所以读者有需要请自行查找资料。

使用如下命令查看是有安装好Java环境。

java -version

检测java环境

为了在终端便于修改文件，这里使用vim编辑器，请自行查找使用资料，这里不再介绍。

sudo apt-get install vim

5、安装 Hadoop

（1）下载安装文件

这里使用的hadoop版本是3.1.3。

方法一：

点击进入官网下载：使用提供的镜像链接下载 hadoop-3.1.3.tar.gz

下载后将文件上传到服务器，这里假设上传到 /home/hadoop 文件夹下。

可以使用MobaXterm进入该目录，然后拖动文件进入目录框内，等待上传文件完成。

方法二：

假设在~目录下，即在 /home/hadoop 文件夹下，使用wget命令在阿里云服务器下载

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

wget方式下载

~的含义

在 Linux 系统中，~ 代表的是用户的主文件夹，即 “/home/用户名” 这个目录，如你的用户名为 hadoop，则 ~ 就代表 “/home/hadoop/”。此外，命令中的 # 后面的文字是注释，只需要输入前面命令即可。

wget命令

用来从指定的URL下载文件。wget非常稳定，它在带宽很窄的情况下和不稳定网络中有很强的适应性，如果是由于网络的原因下载失败，wget会不断的尝试，直到整个文件下载完毕。如果是服务器打断下载过程，它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有用。

（2）解压hadoop文件

这里将 Hadoop 解压至 /usr/local/ 中。

sudo tar -zxf ~/hadoop-3.1.3.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

安装hadoop

Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用，成功则会显示 Hadoop 版本信息：

cd /usr/local/hadoop
./bin/hadoop version

检查hadoop

（3）配置hadoop系统环境变量

总是要进入hadoop目录启动hadoop有点不方便，这里编辑系统环境变量，使得我们可以处处可以快速启动hadoop，那么编辑文件，命令如下：

vim ~/.bashrc

在文件末尾添加如下内容：

# Hadoop
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source更新文件，立即生效：

source ~/.bashrc

配置hadoop系统环境变量

如果为了一完成配置信息就能使用，那么就不用在/etc/profile 和 ~/.profile文件中添加关于软件的配置信息。而是在/etc/bash.bashrc 或者 ~/.bashrc 中添加，这样就能马上使用了。

（4）检查配置

配置完成之后就可以很方便的启动hadoop了

hadoop version

6、Hadoop单机配置(非分布式)

Hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。

非分布式即单 Java 进程，方便进行调试。

Hadoop 附带了丰富的例子（运行 hadoop-mapreduce-examples-3.1.3.jar 可以看到所有例子），包括 wordcount、terasort、join、grep 等。

cd $HADOOP_HOME   # 进入hadoop目录
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar # 运行

hadoop官方实例

在这选择运行 grep 例子，将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中。

cd $HADOOP_HOME
mkdir ./input
cp ./etc/hadoop/*.xml ./input   # 将配置文件作为输入文件
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/*          # 查看运行结果

程序执行成功后：

Hadoop单机模式运行grep的输出结果

注意，Hadoop 默认不会覆盖结果文件，因此再次运行上面实例会提示出错，需要先将 ./output 删除。
rm -r ./output

7、Hadoop伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 $HADOOP_HOME/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件 core-site.xml ，

vim $HADOOP_HOME/etc/hadoop/core-site.xml

将当中的

<configuration>
</configuration>

修改成如下：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

同样的，修改配置文件 hdfs-site.xml：

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

Hadoop配置文件说明

Hadoop 的运行方式是由配置文件决定的（运行 Hadoop 时会读取配置文件），因此如果需要从伪分布式模式切换回非分布式模式，需要删除 core-site.xml 中的配置项。

此外，伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行（官方教程如此），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。

hdfs-site.xml

对于hdfs-site.xml文件，设置replication值为1，这也是Hadoop运行的默认最小值，它限制了HDFS文件系统中同一份数据的副本数量。因为这里采用伪分布式，集群中只有一个节点，因此副本数量replication的值也只能设置为1。

配置完成后，执行 NameNode 的格式化:

hdfs namenode -format

成功的话，会看到 “successfully formatted” 的提示，具体返回信息类似如下：

STARTUP_MSG:   build = https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579; compiled by 'ztang' on 2019-09-12T02:47Z
STARTUP_MSG:   java = 1.8.0_191
************************************************************/
2020-05-25 02:51:05,076 INFO namenode.NameNode: registered UNIX signal handlers for [TERM, HUP, INT]
2020-05-25 02:51:05,173 INFO namenode.NameNode: createNameNode [-format]

......

2020-05-25 02:51:05,896 INFO common.Storage: Storage directory /usr/local/hadoop/tmp/dfs/name has been successfully formatted. #【format成功了】
2020-05-25 02:51:05,918 INFO namenode.FSImageFormatProtobuf: Saving image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 using no compression
2020-05-25 02:51:06,008 INFO namenode.FSImageFormatProtobuf: Image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 of size 393 bytes saved in 0 seconds .
2020-05-25 02:51:06,021 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2020-05-25 02:51:06,026 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid = 0 when meet shutdown.
2020-05-25 02:51:06,026 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at goodgoodstudy/172.18.70.54
************************************************************/

接着开启 NameNode 和 DataNode 守护进程。

start-dfs.sh      #start-dfs.sh是个完整的可执行文件，中间没有空格

启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: NameNode、DataNode 和 SecondaryNameNode。

如果 SecondaryNameNode 没有启动，运行 stop-dfs.sh 关闭进程，然后再次尝试启动尝试。

如果没有 NameNode 或 DataNode ，那就是配置不成功，请仔细检查之前步骤，或通过查看启动日志排查原因。

通过jps查看启动的Hadoop进程

成功启动后，可以访问 Web 界面 http://NameNodeIp:9870/ 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。比如我这里http://dxystudy.cn:9870 或者 http://47.115.49.250:9870，注意这里需要提前在阿里云实例的安全组中打开9870端口

在这里插入图片描述

可能出现的报错信息及解决办法

报错信息①：

Starting namenodes on [localhost]
localhost: hadoop@localhost: Permission denied (publickey,password).
Starting datanodes
localhost: hadoop@localhost: Permission denied (publickey,password).
Starting secondary namenodes [goodgoodstudy]
goodgoodstudy: hadoop@goodgoodstudy: Permission denied (publickey,password).

没有配置公匙，复制导入公钥就可以了，SSH链接需要使用公钥认证。

报错信息②：

Starting namenodes on [localhost]
localhost: ERROR: JAVA_HOME is not set and could not be found.
Starting datanodes
localhost: ERROR: JAVA_HOME is not set and could not be found.
Starting secondary namenodes [goodgoodstudy]
goodgoodstudy: ERROR: JAVA_HOME is not set and could not be found.

找不到JAVA_HOME，在hadoop-env.sh中，再显式地重新声明一遍JAVA_HOME（第54行）

echo $JAVA_HOME # 复制这条命令输出的Java目录信息
cd $HADOOP_HOME
vim ./etc/hadoop/hadoop-env.sh # 如下编辑，将刚才复制的Java目录复制进去

在这里插入图片描述

8、运行Hadoop伪分布式实例

（1）在 HDFS 中创建用户目录

上面的单机模式，grep 例子读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。

要使用 HDFS，首先需要在 HDFS 中创建用户目录：

hdfs dfs -mkdir -p /user/hadoop

注意

教材《大数据技术原理与应用》的命令是以”./bin/hadoop dfs”开头的Shell命令方式，实际上有三种shell命令方式。

hadoop fs # 适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
hadoop dfs # 只能适用于HDFS文件系统
hdfs dfs # 跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

该命令中表示在HDFS中创建一个“/user/hadoop”目录，“–mkdir”是创建目录的操作，“-p”表示如果是多级目录，则父目录和子目录一起创建，这里“/user/hadoop”就是一个多级目录，因此必须使用参数“-p”，否则会出错。

（2）创建输入目录和文件

接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 $HADOOP_HOME/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户，并且已创建相应的用户目录 /user/hadoop ，因此在命令中就可以使用相对路径如 input，其对应的绝对路径就是 /user/hadoop/input:

cd $HADOOP_HOME
hdfs dfs -mkdir input
hdfs dfs -put ./etc/hadoop/*.xml input

复制完成后，查看文件列表：

hdfs dfs -ls input

在创建个input目录时，采用了相对路径形式，实际上，这个input目录创建成功以后，它在HDFS中的完整路径是“/user/hadoop/input”。如果要在HDFS的根目录下创建一个名称为input的目录，则需要使用如下命令：
hdfs dfs -mkdir /input
可以使用rm命令删除一个目录，比如，可以使用如下命令删除刚才在HDFS中创建的“/input”目录（不是“/user/hadoop/input”目录）：
hdfs dfs -rm -r /input
上面命令中，“-r”参数表示如果删除“/input”目录及其子目录下的所有内容，如果要删除的一个目录包含了子目录，则必须使用“-r”参数，否则会执行失败。

（3）运行hadoop官方实例

伪分布式运行 MapReduce 作业的方式跟单机模式相同，区别在于伪分布式读取的是HDFS中的文件。

可以将单机步骤中创建的本地 input 文件夹，输出结果 output 文件夹都删掉来验证这一点

hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

查看运行结果的命令（查看的是位于 HDFS 中的输出结果）：

hdfs dfs -cat output/*

结果如下，注意到刚才已经更改了配置文件，所以运行结果不同：

Hadoop伪分布式运行grep结果

也可以将运行结果取回到本地：

rm -r ./output    # 先删除本地的 output 文件夹（如果存在）
hdfs dfs -get output ./output     # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*

运行程序时，输出目录不能存在

运行 Hadoop 程序时，为了防止覆盖结果，程序指定的输出目录（如 output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。在实际开发应用程序时，可考虑在程序中加上如下代码，能在每次运行时自动删除输出目录，避免繁琐的命令行操作：
Configuration conf = new Configuration();
Job job = new Job(conf);

/* 删除输出目录 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);

（4）关闭Hadoop

若要关闭 Hadoop，则运行

stop-dfs.sh

注意

下次启动 hadoop 时，无需进行 NameNode 的初始化，只需要运行 start-dfs.sh 就可以！

9、其他

（1）Hadoop和谷歌的MapReduce、GFS等技术之间的关系。

（2）Hadoop具有哪些特性。

（3）Hadoop在各个领域的应用情况。

（4）Hadoop生态系统以及每个部分的具体功能。

（5）配置Hadoop时，Java的路径JAVA_HOME是在哪一个配置文件中进行设置的？

（6）所有节点的HDFS路径是通过fs.default.name来设置的，请问它是在那个配置文件中设置的？

（7）列举单机模式和伪分布式模式的异同点。

（8）Hadoop伪分布式运行启动后所具有的进程都有哪些？

参考资料

[1] Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)

[2] linux Hadoop环境变量安装及应用

[3] 详解/etc/profile、/etc/bash.bahsrc、_/.profile、/.bashrc的用途

[4] 【MobaXterm】设置保持SSH连接

[5] 阿里云ECS构建大数据平台实践-基于Apache Hadoop
[6] 林子雨. 在阿里云中搭建大数据实验环境

锦诚明

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【大数据学习】在云服务器安装配置伪分布式Hadoop

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。Hadoop 的配置文件位于 $HADOOP_HOME/etc/hadoop/ 中，伪分布式需要修改2个配置文件 **core-site.xml** 和 **hdfs-site.xml** 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。
复制链接

扫一扫