spark前的平台及搭建

最新推荐文章于 2024-09-06 09:12:37 发布

熊某某21

最新推荐文章于 2024-09-06 09:12:37 发布

阅读量1.3k

点赞数 23

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_62908982/article/details/138186781

版权

一、Hadoop 平台安装

1.1.查看服务器的 IP 地址并配置

创建VMware虚拟机（实验环境）

这里需要三台，分别是master、slave1、slave2

操作系统 centos 7 双核cpu 8G 内存 100G 硬盘

首先配置三台虚拟机在同一网段

在相同网段即可

1.2.设置服务器的主机名称

使用命令修改主机名称

[root@localhost ~]# hostnamectl set-hostname master

[root@localhost ~]# bash

[root@master ~]# hostname

另外两台也是如此

1.3.查看 SSH 服务状态

使用[root@master ~]# systemctl status sshd

1.4.关闭防火墙

[root@master ~]# systemctl stop firewalld

关闭防火墙后要查看防火墙的状态，确认一下。

[root@master ~]# systemctl status firewalld

看到 inactive (dead)就表示防火墙已经关闭。不过这样设置后，Linux 系统如果重启，防火墙仍然会重新启动。执行如下命令可以永久关闭防火墙。

[root@master ~]# systemctl disable firewalld

1.5.创建 hadoop 用户

[root@master ~]# useradd hadoop

[root@master ~]# echo "1" |passwd --stdin hadoop

更改用户 hadoop 的密码。

passwd：所有的身份验证令牌已经成功更新。

二.安装 JAVA 环境

2.1.下载 JDK 安装包

JDK 安装包需要在 Oracle 官网下载，下载地址为： 20 https://www.oracle.com/java /technologies /javase-jdk8-downloads.html，本教材采用的 Hadoop 2.7.1 所需要的 JDK 版本为 JDK7 以上，这里采用的安装包为 jdk-8u152-linux-x64.tar.gz。

2.2.卸载自带 OpenJDK

(先查看后全部卸载)

键入命令

[root@master ~]# rpm -qa | grep java

卸载相关服务，键入命令

[root@master ~]# rpm -e --nodeps （后面接前一个命令查询的Java全称，一个个的删）

[root@master ~]# rpm -qa | grep java

查看删除结果再次键入命令 java -version 出现以下结果表示删除功

[root@master ~]# java -version

bash: java: 未找到命令

2.3.安装 JDK

Hadoop 2.7.1 要求 JDK 的版本为 1.7 以上，这里安装的是 JDK1.8 版（即JAVA 8）。安装命令如下，将安装包解压到/usr/local/src 目录下，注意/opt/software目录下的软件包事先准备好。

[root@master ~]# tar -zxvf /opt/software/jdk-8u152-linux-x64.tar.gz -C /usr/local/src/ [root@master ~]# ls /usr/local/src/

jdk1.8.0_152

2.4.设置 JAVA 环境变量

在 Linux 中设置环境变量的方法比较多，较常见的有两种：一是配置 /etc/profile 文件，配置结果对整个系统有效，系统所有用户都可以使用；二 21 是配置~/.bashrc 文件，配置结果仅对当前用户有效。这里使用第一种方法。

[root@master ~]# vi /etc/profile

在文件的最后增加如下两行：

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

执行 source 使设置生效：

[root@master ~]# source /etc/profile

检查 JAVA 是否可用。

[root@master ~]# echo $JAVA_HOME

/usr/local/src/jdk1.8.0_152

[root@master ~]# java -version

java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16)

Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

能够正常显示 Java 版本则说明 JDK 安装并配置成功。

三.安装 Hadoop 软件

3.1实验任务一：获取 Hadoop 安装包

Apache Hadoop 各个版本的下载网址： https://archive.apache.org/dist/hadoop /common/。本教材选用的是 Hadoop 2.7.1 版本，安装包为 hadoop-2.7.1.tar.gz。需要先下载 Hadoop 安装包，再上传到 Linux 系统的/opt/software 目录。具体的方法见前一节“实验一 Linux 操作系统环境设置”，这里就不再赘述。

3.2安装 Hadoop 软件

安装命令如下，将安装包解压到/usr/local/src/目录下
[root@master ~]# tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src/

查看一下
[root@master ~]# ll /usr/local/src/ 总用量 0 drwxr-xr-x. 9 10021 10021 149 6月 29 2015 hadoop-2.7.1 drwxr-xr-x. 8 10 143 255 9月 14 2017 jdk1.8.0_152
查看 Hadoop 目录,得知 Hadoop 目录

内容如下:

[root@master ~]# ll /usr/local/src/hadoop-2.7.1/

drwxr-xr-x. 2 10021 10021 194 6月 29 2015 bin

drwxr-xr-x. 3 10021 10021 20 6月 29 2015 etc

drwxr-xr-x. 2 10021 10021 106 6月 29 2015 include

drwxr-xr-x. 3 10021 10021 20 6月 29 2015 lib

drwxr-xr-x. 2 10021 10021 239 6月 29 2015 libexec

-rw-r--r--. 1 10021 10021 15429 6月 29 2015 LICENSE.txt

-rw-r--r--. 1 10021 10021 101 6月 29 2015 NOTICE.txt

-rw-r--r--. 1 10021 10021 1366 6月 29 2015 README.txt

drwxr-xr-x. 2 10021 10021 4096 6月 29 2015 sbin

drwxr-xr-x. 4 10021 10021 31 6月 29 2015 share

3.3配置 Hadoop 环境变量

修改/etc/profile 文件。使用如下命令
[root@master ~]# vi /etc/profile

在文件的最后增加如下两行：
export HADOOP_HOME=/usr/local/src/hadoop-2.7.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行 source 使用设置生效：
[root@master ~]# source /etc/profile

[root@master ~]# hadoop Usage: hadoop [--config confdir] [COMMAND | CLASSNAME] CLASSNAME run the class named CLASSNAME or where COMMAND is one of: fs run a generic filesystem user client version print the version jar run a jar file note: please use "yarn jar" to launch YARN applications, not this command.
。。。。。。

3.4修改目录所有者和所有者组

[root@master ~]# chown -R hadoop:hadoop /usr/local/src/

[root@master ~]# ll /usr/local/src/

总用量 0

drwxr-xr-x. 9 hadoop hadoop 149 6月 29 2015 hadoop-2.7.1

drwxr-xr-x. 8 hadoop hadoop 255 9月 14 2017 jdk1.8.0_152 /usr/local/src

目录的所有者已经改为 hadoop 了。

四、安装单机版 Hadoop 系统

4.1.配置 Hadoop 配置文件

[root@master ~]# cd /usr/local/src/hadoop-2.7.1/

[root@master hadoop-2.7.1]# ls

bin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin share

[root@master hadoop-2.7.1]# vi etc/hadoop/hadoop-env.sh

在文件中查找 export JAVA_HOME 这行，将其改为如下所示内容:

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

这样就设置好 Hadoop 的本地模式，下面使用官方案例来测试 Hadoop 是否运行正常。

4.2.测试 Hadoop 本地模式的运行
4.2.1.切换到 hadoop 用户
使用 hadoop 这个用户来运行 Hadoop 软件。

[root@master hadoop-2.7.1]# su - hadoop

[hadoop@master ~]$ id uid=1001(hadoop) gid=1001(hadoop) 组=1001(hadoop)

环境 =unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023

4.2.2.创建输入数据存放目录

将输入数据存放在~/input 目录（hadoop 用户主目录下的 input 目录中）。

[hadoop@master ~]$ mkdir ~/input

[hadoop@master ~]$ ls Input

4.2.3.创建数据输入文件

创建数据文件 data.txt，将要测试的数据内容输入到 data.txt 文件中。

[hadoop@master ~]$ vi input/data.txt

输入如下内容，保存退出。

Hello World

Hello Hadoop

Hello Husan

4.2.4. 测试 MapReduce 运行

运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。命令如下:(注意空格)

[hadoop@master ~]$ hadoop jar /usr/local/src/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount ~/input/data.txt ~/output

运行结果保存在~/output 目录中(注：结果输出目录不能事先存在)，命令执行后查看结果： [hadoop@master ~]$ ll output/

总用量 4

-rw-r--r--. 1 hadoop hadoop 33 11月 10 23:50 part-r-00000

-rw-r--r--. 1 hadoop hadoop 0 11月 10 23:50 _SUCCESS

文件_SUCCESS 表示处理成功，处理的结果存放在 part-r-00000 文件中，查看该文件。 [hadoop@master ~]$ cat output/part-r-00000

Hadoop1

Hello 3

Husan 1

World 1

可以看出统计结果正确，说明 Hadoop 本地模式运行正常。

五、Hadoop平台环境配置

5.1.实验环境下集群网络配置
5.1.1.修改主机名
修改 slave1 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave1

[root@localhost ~]# bash

[root@slave1 ~]#

修改 slave2 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave2

[root@localhost ~]# bash

[root@slave2 ~]#

eg:根据实验环境下集群网络 IP 地址规划（根据自己主机的ip即可）：

master 设置 IP 地址是“1192.168.20.133”，掩码是“255.255.255.0”；

slave1 设置 IP 地址“192.168.20.134”，掩码是“255.255.255.0”；

slave2 设置 IP 地址是“192.168.20.135”，掩码是“255.255.255.0”。

5.1.2.修改主机配置文件“/etc/hosts”

根据我们为 Hadoop 设置的主机名为“master、slave1、slave2”，(这里的地址根据自己实验中实际地址来)映地址是 “192.168.20.133、192.168.20.134、192.168.20.135”，分别修改主机配置文件“/etc/hosts”，在命令终端输入如下命令：（分别修改mastar、slave1、slave2）

[root@master ~]# vi /etc/hosts | [root@slave1 ~]# vi /etc/hosts | [root@slave1 ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master

192.168.47.141 slave1

192.168.47.142 slave2

5.2.SSH 无密码验证配置

生成 SSH 密钥

5.2.1. 每个节点安装和启动 SSH 协议

实现 SSH 登录需要 openssh 和 rsync 两个服务，一般情况下默认已经安装（如没有自行安装），可以通过下面命令查看结果。

[root@master ~]# rpm -qa | grep openssh

openssh-server-7.4p1-11.el7.x86_64

openssh-7.4p1-11.el7.x86_64

openssh-clients-7.4p1-11.el7.x86_64

[root@master ~]# rpm -qa | grep rsync

rsync-3.1.2-11.el7_9.x86_64

5.2.2.切换到 hadoop 用户

(主节点“master”前面有创建hadoop用户，分节点“slave1、2”分别创建Hadoop用户)

[root@master ~]# su - hadoop

[hadoop@master ~]$

[root@slave1 ~]# useradd hadoop

[root@slave1 ~]# su - hadoop

[hadoop@slave1 ~]$

[root@slave2 ~]# useradd hadoop

[root@slave2 ~]# su - hadoop

[hadoop@slave2 ~]$

咳咳咳，下面重点内容了，仔细看，一不小心就掉坑里了！！！

5.2.3每个节点生成秘钥对、

#在 master 上生成密钥(如下图内容一样即可)

[hadoop@master ~]$ ssh-keygen -t rsa

#slave1 生成密钥

[hadoop@slave1 ~]$ ssh-keygen -t rsa

#slave2 生成密钥

[hadoop@slave2 ~]$ ssh-keygen -t rsa

5.2.4.查看"/home/hadoop/"下是否有".ssh"文件夹

且".ssh"文件下是否有两个刚生产的无密码密钥对。

[hadoop@master ~]$ ls ~/.ssh/

id_rsa id_rsa.pub

5.2.5.将 id_rsa.pub 追加到授权 key 文件中

#master

[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@master ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

#slave1

[hadoop@slave1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

#slave2

[hadoop@slave2 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

5.2.6.修改文件"authorized_keys"权限

通过 ll 命令查看，可以看到修改后 authorized_keys 文件的权限为“rw-------”，表示所有者可读写，其他用户没有访问权限。如果该文件权限太大，ssh 服务会拒绝工作，出现无法通过密钥文件进行登录认证的情况。

#master

[hadoop@master ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@master ~]$ ll ~/.ssh/

#slave1

[hadoop@slave1 ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ ll ~/.ssh

#slave2

[hadoop@slave2 ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ ll ~/.ssh/

5.2.7.配置 SSH 服务(这里也是三个节点都)

使用 root 用户登录，修改 SSH 配置文件"/etc/ssh/sshd_config"的下列内容，需要将该配置字段前面的#号删除，启用公钥私钥配对认证方式。

#master （slave1、slave2）

[hadoop@master ~]$ su - root

[root@master ~]# vi /etc/ssh/sshd_config

PubkeyAuthentication yes #找到此行，并把#号注释删除。

5.2.8.重启 SSH 服务

设置完后需要重启 SSH 服务，才能使配置生效。

[root@master ~]# systemctl restart sshd

5.2.9.切换到 hadoop 用户

[root@master ~]# su - hadoop

[hadoop@master ~]$

5.2.10.验证 SSH 登录本机

在 hadoop 用户下验证能否嵌套登录本机，若可以不输入密码登录，则本机通过密钥登录认证成功。

[hadoop@master ~]$ ssh localhost

[hadoop@master ~]$

（首次登录时会提示系统无法确认 host 主机的真实性，只知道它的公钥指纹，询问用户是否还想继续连接。需要输入“yes”，表示继续登录。第二次再登录同一个主机，则不会再出现该提示，可以直接进行登录。读者需要关注是否在登录过程中是否需要输入密码，不需要输入密码才表示通过密钥认证成功。）

5.2.11交换 SSH 密钥

5.2.11.1.将 Master 节点的公钥 id_rsa.pu复制到每个 Slave 点

hadoop 用户登录，通过 scp 命令实现密钥拷贝。

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave1:~/

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave2:~/

(首次远程连接时系统会询问用户是否要继续连接。需要输入“yes”，表示继续。因为目前尚未完成密钥认证的配置，所以使用 scp 命令拷贝文件需要输入slave1 节点 hadoop 用户的密码。)

5.2.11.2.在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件

hadoop 用户登录 slave1 和 slave2 节点，执行命令。

[hadoop@slave1 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

5.2.11.3.在每个 Slave 节点删除 id_rsa.pub 文件

[hadoop@slave1 ~]$ rm -rf ~/id_rsa.pub

[hadoop@slave2 ~]$ rm -rf ~/id_rsa.pub

5.2.11.4.将每个 Slave 节点的公钥保存到 Master

(注意先后顺序)

将 Slave1 节点的公钥复制到 Master

(1) [hadoop@slave1 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

（2）在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

（3）在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

将 Slave2 节点的公钥复制到 Master

(1)[hadoop@slave2 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

（2）在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

（3）在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

5.2.12.验证 SSH 无密码登录

（1）查看 Master 节点 authorized_keys 文件

[hadoop@master ~]$ cat ~/.ssh/authorized_keys

（可以看到 Master 节点 authorized_keys 文件中包括 master、slave1、slave2 三个节点的公钥，如下图）

（2）查看 Slave 节点 authorized_keys 文件

（能看到slave1、2 authorized_keys 文件中包括master、当前slave节点就OK了）

[hadoop@slave1 ~]$ cat ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/.ssh/authorized_keys

5.2.13.ssh各节点验证

（1）验证 Master 到每个 Slave 节点无密码登录

hadoop 用户登录 master 节点，执行 SSH 命令登录 slave1 和 slave2 节点。可以观察到不需要输入密码即可实现 SSH 登录。

[hadoop@master ~]$ ssh slave1

[hadoop@slave1 ~]$

[hadoop@master ~]$ ssh slave2

[hadoop@slave2 ~]$

（2）验证两个 Slave 节点到 Master 节点无密码登录

[hadoop@slave1 ~]$ ssh master

Last login: Mon Nov 14 16:30:45 2022 from ::1

[hadoop@master ~]$

[hadoop@slave2 ~]$ ssh master

Last login: Mon Nov 14 16:50:49 2022 from 192.168.47.141

[hadoop@master ~]$

5.3.配置两个子节点slave1、slave2的JDK环境。

[root@master ~]# cd /usr/local/src/

[root@master src]# ls hadoop-2.7.1 jdk1.8.0_152

[root@master src]# scp -r jdk1.8.0_152 root@slave1:/usr/local/src/

[root@master src]# scp -r jdk1.8.0_152 root@slave2:/usr/local/src/

#slave1 (slave2也一样的操作)

[root@slave1 ~]# ls /usr/local/src/ jdk1.8.0_152

[root@slave1 ~]# vi /etc/profile

#此文件最后添加下面两行

export JAVA_HOME=/usr/local/src/jdk1.8.0_152 37

export PATH=$PATH:$JAVA_HOME/bin

[root@slave1 ~]# source /etc/profile

[root@slave1 ~]# java -version

java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16) Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

六.Hadoop集群运行

6.1

1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop

[root@master ~]# cd /usr/local/src/

[root@master src]# mv hadoop-2.7.1 hadoop

[root@master src]# ls

hadoop jdk1.8.0_152

2. 配置 Hadoop 环境变量

[root@master src]# yum install -y vim

[root@master src]# vim /etc/profile

[root@master src]# tail -n 4 /etc/profile export

JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

3. 使配置的 Hadoop 的环境变量生效

[root@master src]# su - hadoop

上一次登录：一 2 月 28 15:55:37 CST 2022 从 192.168.20.133 pts/1 上 [hadoop@master ~]$ source /etc/profile

[hadoop@master ~]$ exit 登出

4. 执行以下命令修改 hadoop-env.sh 配置文件

[root@master src]# cd /usr/local/src/hadoop/etc/hadoop/

[root@master hadoop]# vim hadoop-env.sh #修改以下配置

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

6.2配置 hdfs-site.xml 文件参数

七大数据平台集群运行

1. 实验一：hadoop 集群运行

1.1配置 Hadoop 格式化

[root@master ~]# su – hadoop

[hadoop@master ~]# cd /usr/local/src/hadoop/

[hadoop@master hadoop]$ bin/hdfs namenode –format

结果： 20/05/02 16:21:50 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at master/192.168.1.6

************************************************************/

1.2启动 NameNode

[hadoop@master hadoop]$ hadoop-daemon.sh start namenode

starting namenode, logging to /opt/module/hadoop-2.7.1/logs/hadoop-hadoop-namenode-master.out

1.3启动完成后，可以使用 JPS 命令查看是否成功。JPS 命令是 Java 提供的一个显示当前所有 Java 进程 pid 的命令。

[hadoop@master hadoop]$ jps

3557 NameNode

3624 Jps

1.3.1slave节点启动 DataNode

[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode

starting datanode, logging to /opt/module/hadoop2.7.1/logs/hadoop-hadoop-datanode-master.out

[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode

starting datanode, logging to /opt/module/hadoop2.7.1/logs/hadoop-hadoop-datanode-master.out

[hadoop@slave1 hadoop]$ jps

3557 DataNode

3725 Jps

[hadoop@slave2 hadoop]$ jps

3557 DataNode

3725 Jps

1.4启动 SecondaryNameNode

执行如下命令，启动 SecondaryNameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode

starting secondarynamenode, logging to /opt/module/hadoop-2.7.1/logs/hadoop-hadoop-secondarynamenode-master.out

[hadoop@master hadoop]$ jps

34257 NameNode

34449 SecondaryNameNode

34494 Jps

查看到有 NameNode 和 SecondaryNameNode 两个进程，就表明 HDFS 启动成功。

5.2.2.3步骤三：查看 HDFS 数据存放位置：
执行如下命令，查看 Hadoop 工作目录：

[hadoop@master hadoop]$ ll dfs/

总用量 0

drwx------ 3 hadoop hadoop 21 8 月 14 15:26 data

drwxr-xr-x 3 hadoop hadoop 40 8 月 14 14:57 name

[hadoop@master hadoop]$ ll ./tmp/dfs

总用量 0 45 drwxrwxr-x. 3 hadoop hadoop 21 5 月 2 16:34 namesecondary

可以看出 HDFS 的数据保存在/usr/local/src/hadoop/dfs 目录下，NameNode、 DataNode和/usr/local/src/hadoop/tmp/目录下,SecondaryNameNode 各有一个目录存放数据。

5.2.2.4.查看 HDFS 的报告
[hadoop@master sbin]$ hdfs dfsadmin -report

5.2.2.5.使用浏览器查看节点状态
在浏览器的地址栏输入http://master:50070，进入页面可以查看NameNode和DataNode 信息

在浏览器的地址栏输入 http://master:50090，进入页面可以查看 SecondaryNameNode信息，如图 5-3 所示

[hadoop@master hadoop]$ stop-dfs.sh

[hadoop@master hadoop]$ start-dfs.sh

运行测试：下面运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。

WordCount 官方案例
以上步骤完成后可以做一下如下测试：

1）在 HDFS 文件系统中创建数据输入目录

确保 dfs 和 yarn 都启动成功

[hadoop@master hadoop]$ start-yarn.sh

[hadoop@master hadoop]$ jps

34257 NameNode

34449 SecondaryNameNode

34494 Jps

32847 ResourceManager

如果是第一次运行 MapReduce 程序，需要先在 HDFS 文件系统中创建数据输入目录，存放输入数据。这里指定/input 目录为输入数据的存放目录。

执行如下命令，在 HDFS 文件系统中创建/input 目录：

[hadoop@master hadoop]$ hdfs dfs -mkdir /input

[hadoop@master hadoop]$ hdfs dfs -ls /

Found 1 items

drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:26 /input

此处创建的/input 目录是在 HDFS 文件系统中，只能用 HDFS 命令查看和操作。

2）将输入数据文件复制到 HDFS 的/input 目录中测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt，内容如下所示。

[hadoop@master hadoop]$ cat ~/input/data.txt

Hello World

Hello Hadoop

Hello Huasan

执行如下命令，将输入数据文件复制到 HDFS 的/input 目录中：

[hadoop@master hadoop]$ hdfs dfs -put ~/input/data.txt /input

确认文件已复制到 HDFS 的/input 目录：

[hadoop@master hadoop]$ hdfs dfs -ls /input

Found 1 items

-rw-r--r-- 1 hadoop supergroup 38 2020-05-02 22:32 /input/data.txt

3）运行 WordCount 案例，计算数据文件中各单词的频度。

运行 MapReduce 命令需要指定数据输出目录，该目录为 HDFS 文件系统中的目录，会自动生成。如果在执行 MapReduce 命令前，该目录已经存在，则执行 MapReduce 命令会出错。例如 MapReduce 命令指定数据输出目录为/output，/output 目录在 HDFS 文件系统中已经存在，则执行相应的 MapReduce 命令就会出错。所以如果不是第一次运行 MapReduce，就要先查看HDFS中的文件，是否存在/output目录。如果已经存在/output 目录，就要先删除/output目录，再执行上述命令。自动创建的/output 目录在 HDFS 文件系统中，使用 HDFS 命令查看和操作。

[hadoop@master hadoop]$ hdfs dfs -mkdir /output

先执行如下命令查看 HDFS 中的文件：

[hadoop@master hadoop]$ hdfs dfs -ls /

Found 3 items

drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:32 /input

drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:49 /output

上述目录中/input 目录是输入数据存放的目录，/output 目录是输出数据存放的目录。执行如下命令，删除/output 目录。

[hadoop@master hadoop]$ hdfs dfs -rm -r -f /output

执行如下命令运行 WordCount 案例：（在浏览器的地址栏输入：http://master:8088，在界面也能看到新生成的目录）

[hadoop@master hadoop]$ hadoop jar share/hadoop/mapreduce/hado map op-- reduce-examples-2.7.1.jar wordcount /input/data.txt /output

可以使用 HDFS 命令直接查看 part-r-00000 文件内容，结果如下所示：

[hadoop@master hadoop]$ hdfs dfs -cat /output/part-r-00000

Hadoop 1

Hello 3

Huasan 1

World 1

可以看出统计结果正确，说明 Hadoop 运行正常。

5.3.停止 Hadoop
（注意节点，是哪一个节点停止）

5.3.1.停止 yarn
[hadoop@master hadoop]$ stop-yarn.sh

5.3.2.停止 DataNode
[hadoop@slave1 hadoop]$ hadoop-daemon.sh stop datanode

stopping namenode

[hadoop@slave2 hadoop]$ hadoop-daemon.sh stop datanode

stopping namenode

5.3.3.停止 NameNode
[hadoop@master hadoop]$ hadoop-daemon.sh stop namenode

stopping namenode

5.3.4.停止 SecondaryNameNode
[hadoop@master hadoop]$ hadoop-daemon.sh stop secondarynamenode

stopping secondarynamenode

5.3.5.查看 JAVA 进程
确认 HDFS 进程已全部关闭

[hadoop@master hadoop]$ jps

3528 Jps

30838 RunJar

熊某某21

关注

23
点赞
踩
45

收藏

觉得还不错? 一键收藏
1
评论
spark前的平台及搭建

结果： 20/05/02 16:21:50 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at master/192.168.1.6。安装命令如下，将安装包解压到/usr/local/src 目录下，注意/opt/software目录下的软件包事先准备好。命令如下:(注意空格)
复制链接

扫一扫