spark学习笔记！！！

蘑古力～

已于 2024-04-24 19:36:02 修改

阅读量1.5k

点赞数 31

文章标签： linux 运维服务器 spark 学习笔记

于 2024-04-24 19:10:43 首次发布

本文链接：https://blog.csdn.net/m0_74752246/article/details/138065931

版权

古人云：工欲善其事必先利其器！

第一步先将“器”基础平台搭建起来，gogogo！！！

一、Hadoop 平台安装

创建VMware虚拟机（实验环境）

这里需要三台，分别是master、slave1、slave2

按照如下配置

“

”

1.配置Linux系统基础环境（实验过程）

1.1.查看服务器的 IP 地址

（若没有则自行配置）

[root@localhost ~]# ip add show

1.2.设置服务器的主机名称

(余下两台虚拟机也如下方式修改名称)

[root@localhost ~]# hostnamectl set-hostname master

[root@localhost ~]# bash

[root@master ~]# hostname

master

1.3.主机名与 IP 地址

[root@master ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master （实际IP为自己主机的IP，这里为举例IP）

1.4.查看 SSH 服务状态

CentOS 7 默认安装 SSH 服务，可以使用如下命令查看 SSH 的状态。

[root@master ~]# systemctl status sshd

1.5.关闭防火墙

[root@master ~]# systemctl stop firewalld

关闭防火墙后要查看防火墙的状态，确认一下。

[root@master ~]# systemctl status firewalld

看到 inactive (dead)就表示防火墙已经关闭。不过这样设置后，Linux 系统如果重启，防火墙仍然会重新启动。执行如下命令可以永久关闭防火墙。

[root@master ~]# systemctl disable firewalld

1.6.创建 hadoop 用户

[root@master ~]# useradd hadoop

[root@master ~]# echo "1" |passwd --stdin hadoop

更改用户 hadoop 的密码。

passwd：所有的身份验证令牌已经成功更新。

2.安装 JAVA 环境

2.1.下载 JDK 安装包

JDK 安装包需要在 Oracle 官网下载，下载地址为： 20 https://www.oracle.com/java /technologies /javase-jdk8-downloads.html，本教材采用的 Hadoop 2.7.1 所需要的 JDK 版本为 JDK7 以上，这里采用的安装包为 jdk-8u152-linux-x64.tar.gz。

2.2.卸载自带 OpenJDK

(先查看后全部卸载)

键入命令

[root@master ~]# rpm -qa | grep java

卸载相关服务，键入命令

[root@master ~]# rpm -e --nodeps （后面接前一个命令查询的Java全称，一个个的删）

[root@master ~]# rpm -qa | grep java

查看删除结果再次键入命令 java -version 出现以下结果表示删除功

[root@master ~]# java -version

bash: java: 未找到命令

2.3.安装 JDK

Hadoop 2.7.1 要求 JDK 的版本为 1.7 以上，这里安装的是 JDK1.8 版（即JAVA 8）。安装命令如下，将安装包解压到/usr/local/src 目录下，注意/opt/software目录下的软件包事先准备好。

[root@master ~]# tar -zxvf /opt/software/jdk-8u152-linux-x64.tar.gz -C /usr/local/src/ [root@master ~]# ls /usr/local/src/

jdk1.8.0_152

2.4.设置 JAVA 环境变量

在 Linux 中设置环境变量的方法比较多，较常见的有两种：一是配置 /etc/profile 文件，配置结果对整个系统有效，系统所有用户都可以使用；二 21 是配置~/.bashrc 文件，配置结果仅对当前用户有效。这里使用第一种方法。

[root@master ~]# vi /etc/profile

在文件的最后增加如下两行：

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

执行 source 使设置生效：

[root@master ~]# source /etc/profile

检查 JAVA 是否可用。

[root@master ~]# echo $JAVA_HOME

/usr/local/src/jdk1.8.0_152

[root@master ~]# java -version

java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16)

Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

能够正常显示 Java 版本则说明 JDK 安装并配置成功。

二、安装 Hadoop 软件

2.安装 Hadoop 软件

2.1.安装命令如下，将安装包解压到/usr/local/src/目录下

[root@master ~]# tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src/

[root@master ~]# ll /usr/local/src/

总用量 0

drwxr-xr-x. 9 10021 10021 149 6月 29 2015 hadoop-2.7.1

drwxr-xr-x. 8 10 143 255 9月 14 2017 jdk1.8.0_152

查看 Hadoop 目录,得知 Hadoop 目录内容如下:

[root@master ~]# ll /usr/local/src/hadoop-2.7.1/

总用量 28

2.2.配置 Hadoop 环境变量

和设置 JAVA 环境变量类似，修改/etc/profile 文件。

[root@master ~]# vi /etc/profile

在文件的最后增加如下两行：

export HADOOP_HOME=/usr/local/src/hadoop-2.7.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行 source 使用设置生效：

[root@master ~]# source /etc/profile

检查设置是否生效：

[root@master ~]# hadoop

[root@master ~]# 出现上述 Hadoop 帮助信息就说明 Hadoop 已经安装好了。

2.3.修改目录所有者和所有者组

上述安装完成的 Hadoop 软件只能让 root 用户使用，要让 hadoop 用户能够运行 Hadoop 软件，需要将目录/usr/local/src 的所有者改为 hadoop 用户。

[root@master ~]# chown -R hadoop:hadoop /usr/local/src/

[root@master ~]# ll /usr/local/src/

总用量 0

drwxr-xr-x. 9 hadoop hadoop 149 6月 29 2015 hadoop-2.7.1

drwxr-xr-x. 8 hadoop hadoop 255 9月 14 2017 jdk1.8.0_152

/usr/local/src 目录的所有者已经改为 hadoop 了。

三、安装单机版 Hadoop 系统

3.1.配置 Hadoop 配置文件

[root@master ~]# cd /usr/local/src/hadoop-2.7.1/

[root@master hadoop-2.7.1]# ls

bin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin share

[root@master hadoop-2.7.1]# vi etc/hadoop/hadoop-env.sh

在文件中查找 export JAVA_HOME 这行，将其改为如下所示内容:

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

这样就设置好 Hadoop 的本地模式，下面使用官方案例来测试 Hadoop 是否运行正常。

3.2.测试 Hadoop 本地模式的运行

3.2.1.切换到 hadoop 用户

使用 hadoop 这个用户来运行 Hadoop 软件。

[root@master hadoop-2.7.1]# su - hadoop

[hadoop@master ~]$ id uid=1001(hadoop) gid=1001(hadoop) 组=1001(hadoop)

环境 =unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 3.4.2.2.

3.2.2.创建输入数据存放目录

将输入数据存放在~/input 目录（hadoop 用户主目录下的 input 目录中）。

[hadoop@master ~]$ mkdir ~/input

[hadoop@master ~]$ ls Input 3.4.2.3.

3.2.3.创建数据输入文件

创建数据文件 data.txt，将要测试的数据内容输入到 data.txt 文件中。

[hadoop@master ~]$ vi input/data.txt

输入如下内容，保存退出。

Hello World

Hello Hadoop

Hello Husan

3.2.4. 测试 MapReduce 运行

运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。命令如下:(注意空格)

[hadoop@master ~]$ hadoop jar /usr/local/src/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount ~/input/data.txt ~/output

运行结果保存在~/output 目录中(注：结果输出目录不能事先存在)，命令执行后查看结果： [hadoop@master ~]$ ll output/

总用量 4

-rw-r--r--. 1 hadoop hadoop 33 11月 10 23:50 part-r-00000

-rw-r--r--. 1 hadoop hadoop 0 11月 10 23:50 _SUCCESS

文件_SUCCESS 表示处理成功，处理的结果存放在 part-r-00000 文件中，查看该文件。 [hadoop@master ~]$ cat output/part-r-00000

Hadoop1

Hello 3

Husan 1

World 1

可以看出统计结果正确，说明 Hadoop 本地模式运行正常。

四、Hadoop平台环境配置

4.1.实验环境下集群网络配置

4.1.1.修改主机名

修改 slave1 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave1

[root@localhost ~]# bash

[root@slave1 ~]#

修改 slave2 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave2

[root@localhost ~]# bash

[root@slave2 ~]#

eg:根据实验环境下集群网络 IP 地址规划（根据自己主机的ip即可）：

master 设置 IP 地址是“192.168.47.140”，掩码是“255.255.255.0”；

slave1 设置 IP 地址“192.168.47.141”，掩码是“255.255.255.0”；

slave2 设置 IP 地址是“192.168.47.142”，掩码是“255.255.255.0”。

4.1.2.修改主机配置文件“/etc/hosts”

根据我们为 Hadoop 设置的主机名为“master、slave1、slave2”，(这里的地址根据自己实验中实际地址来)映地址是 “192.168.47.140、192.168.47.141、192.168.47.142”，分别修改主机配置文件“/etc/hosts”，在命令终端输入如下命令：（分别修改mastar、slave1、slave2）

[root@master ~]# vi /etc/hosts | [root@slave1 ~]# vi /etc/hosts | [root@slave1 ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master

192.168.47.141 slave1

192.168.47.142 slave2

4.2.SSH 无密码验证配置

生成 SSH 密钥

4.2.1. 每个节点安装和启动 SSH 协议

实现 SSH 登录需要 openssh 和 rsync 两个服务，一般情况下默认已经安装（如没有自行安装），可以通过下面命令查看结果。

[root@master ~]# rpm -qa | grep openssh

openssh-server-7.4p1-11.el7.x86_64

openssh-7.4p1-11.el7.x86_64

openssh-clients-7.4p1-11.el7.x86_64

[root@master ~]# rpm -qa | grep rsync

rsync-3.1.2-11.el7_9.x86_64

4.2.2.切换到 hadoop 用户

(主节点“master”前面有创建hadoop用户，分节点“slave1、2”分别创建Hadoop用户)

[root@master ~]# su - hadoop

[hadoop@master ~]$

[root@slave1 ~]# useradd hadoop

[root@slave1 ~]# su - hadoop

[hadoop@slave1 ~]$

[root@slave2 ~]# useradd hadoop

[root@slave2 ~]# su - hadoop

[hadoop@slave2 ~]$

咳咳咳，下面重点内容了，仔细看，一不小心就掉坑里了！！！

4.2.3每个节点生成秘钥对

（注意了每个哈，不要看漏掉了）

#在 master 上生成密钥(如下图内容一样即可)

[hadoop@master ~]$ ssh-keygen -t rsa

#slave1 生成密钥

[hadoop@slave1 ~]$ ssh-keygen -t rsa

#slave2 生成密钥

[hadoop@slave2 ~]$ ssh-keygen -t rsa

4.2.4.查看"/home/hadoop/"下是否有".ssh"文件夹

且".ssh"文件下是否有两个刚生产的无密码密钥对。

[hadoop@master ~]$ ls ~/.ssh/

id_rsa id_rsa.pub

4.2.5.将 id_rsa.pub 追加到授权 key 文件中

（醒醒，这个也是每个节点哈，别漏掉了）

#master

[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@master ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

#slave1

[hadoop@slave1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

#slave2

[hadoop@slave2 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

4.2.6.修改文件"authorized_keys"权限

通过 ll 命令查看，可以看到修改后 authorized_keys 文件的权限为“rw-------”，表示所有者可读写，其他用户没有访问权限。如果该文件权限太大，ssh 服务会拒绝工作，出现无法通过密钥文件进行登录认证的情况。

#master

[hadoop@master ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@master ~]$ ll ~/.ssh/

#slave1

[hadoop@slave1 ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ ll ~/.ssh

#slave2

[hadoop@slave2 ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ ll ~/.ssh/

写出下图样式，就一样就O了！

4.2.7.配置 SSH 服务(这里也是三个节点都)

使用 root 用户登录，修改 SSH 配置文件"/etc/ssh/sshd_config"的下列内容，需要将该配置字段前面的#号删除，启用公钥私钥配对认证方式。

#master （slave1、slave2）

[hadoop@master ~]$ su - root

[root@master ~]# vi /etc/ssh/sshd_config

PubkeyAuthentication yes #找到此行，并把#号注释删除。

4.2.8.重启 SSH 服务

设置完后需要重启 SSH 服务，才能使配置生效。

[root@master ~]# systemctl restart sshd

4.2.9.切换到 hadoop 用户

[root@master ~]# su - hadoop

[hadoop@master ~]$

4.2.10.验证 SSH 登录本机

在 hadoop 用户下验证能否嵌套登录本机，若可以不输入密码登录，则本机通过密钥登录认证成功。

[hadoop@master ~]$ ssh localhost

[hadoop@master ~]$

（首次登录时会提示系统无法确认 host 主机的真实性，只知道它的公钥指纹，询问用户是否还想继续连接。需要输入“yes”，表示继续登录。第二次再登录同一个主机，则不会再出现该提示，可以直接进行登录。读者需要关注是否在登录过程中是否需要输入密码，不需要输入密码才表示通过密钥认证成功。）

4.2.11交换 SSH 密钥

4.2.11.1.将 Master 节点的公钥 id_rsa.pu复制到每个 Slave 点

hadoop 用户登录，通过 scp 命令实现密钥拷贝。

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave1:~/

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave2:~/

(首次远程连接时系统会询问用户是否要继续连接。需要输入“yes”，表示继续。因为目前尚未完成密钥认证的配置，所以使用 scp 命令拷贝文件需要输入slave1 节点 hadoop 用户的密码。)

4.2.11.2.在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件

hadoop 用户登录 slave1 和 slave2 节点，执行命令。

[hadoop@slave1 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

4.2.11.3.在每个 Slave 节点删除 id_rsa.pub 文件

[hadoop@slave1 ~]$ rm -rf ~/id_rsa.pub

[hadoop@slave2 ~]$ rm -rf ~/id_rsa.pub

4.2.11.4.将每个 Slave 节点的公钥保存到 Master

(注意先后顺序)

将 Slave1 节点的公钥复制到 Master

(1) [hadoop@slave1 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

（2）在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

（3）在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

将 Slave2 节点的公钥复制到 Master

(1)[hadoop@slave2 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

（2）在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

（3）在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

4.2.12.验证 SSH 无密码登录

（1）查看 Master 节点 authorized_keys 文件

[hadoop@master ~]$ cat ~/.ssh/authorized_keys

（可以看到 Master 节点 authorized_keys 文件中包括 master、slave1、slave2 三个节点的公钥，如下图）

（2）查看 Slave 节点 authorized_keys 文件

（能看到slave1、2 authorized_keys 文件中包括master、当前slave节点就OK了）

[hadoop@slave1 ~]$ cat ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/.ssh/authorized_keys

4.2.13.ssh各节点验证

（1）验证 Master 到每个 Slave 节点无密码登录

hadoop 用户登录 master 节点，执行 SSH 命令登录 slave1 和 slave2 节点。可以观察到不需要输入密码即可实现 SSH 登录。

[hadoop@master ~]$ ssh slave1

[hadoop@slave1 ~]$

[hadoop@master ~]$ ssh slave2

[hadoop@slave2 ~]$

（2）验证两个 Slave 节点到 Master 节点无密码登录

[hadoop@slave1 ~]$ ssh master

Last login: Mon Nov 14 16:30:45 2022 from ::1

[hadoop@master ~]$

[hadoop@slave2 ~]$ ssh master

Last login: Mon Nov 14 16:50:49 2022 from 192.168.47.141

[hadoop@master ~]$

4.3.配置两个子节点slave1、slave2的JDK环境。

[root@master ~]# cd /usr/local/src/

[root@master src]# ls hadoop-2.7.1 jdk1.8.0_152

[root@master src]# scp -r jdk1.8.0_152 root@slave1:/usr/local/src/

[root@master src]# scp -r jdk1.8.0_152 root@slave2:/usr/local/src/

#slave1 (slave2也一样的操作)

[root@slave1 ~]# ls /usr/local/src/ jdk1.8.0_152

[root@slave1 ~]# vi /etc/profile

#此文件最后添加下面两行

export JAVA_HOME=/usr/local/src/jdk1.8.0_152 37

export PATH=$PATH:$JAVA_HOME/bin

[root@slave1 ~]# source /etc/profile

[root@slave1 ~]# java -version

java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16) Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

五、Hadoop集群运行

5.1.Hadoop文件参数配置

5.1.1.在 Master 节点上安装 Hadoop

1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop

[root@master ~]# cd /usr/local/src/

[root@master src]# mv hadoop-2.7.1 hadoop

[root@master src]# ls hadoop jdk1.8.0_152

2. 配置 Hadoop 环境变量

[root@master src]# yum install -y vim

[root@master src]# vim /etc/profile

[root@master src]# tail -n 4 /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop export

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

3. 使配置的 Hadoop 的环境变量生效

[root@master src]# su - hadoop

上一次登录：一 2 月 28 15:55:37 CST 2022 从 192.168.41.143pts/1 上

[hadoop@master ~]$ source /etc/profile

[hadoop@master ~]$ exit 登出

4. 执行以下命令修改 hadoop-env.sh 配置文件

[root@master src]# cd /usr/local/src/hadoop/etc/hadoop/

[root@master hadoop]# vim hadoop-env.sh #修改以下配置

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

5.1.2.配置 hdfs-site.xml 文件参数

[root@master hadoop]# vim hdfs-site.xml

#编辑以下内容

[root@master hadoop]# tail -n 14 hdfs-site.xml

5.1.3.配置 core-site.xml 文件参数

(配置文件中注意修改IP地址“改为实验中自己使用的IP”)

[root@master hadoop]# vim core-site.xml

#编辑以下内容 [root@master hadoop]# tail -n 14 core-site.xml

5.1.4.配置 mapred-site.xml

[root@master hadoop]# pwd /usr/local/src/hadoop/etc/hadoop

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]# vim mapred-site.xml #添加以下配置

[root@master hadoop]# tail -n 14 mapred-site.xm

5.1.5.配置 yarn-site.xml

[root@master hadoop]# vim yarn-site.xml

#添加以下配置

[root@master hadoop]# tail -n 32 yarn-site.xml

5.1.6.Hadoop 其他相关配置

1. 配置 masters 文件

[root@master hadoop]# vim masters

[root@master hadoop]# cat masters 192.168.47.140

2. 配置 slaves 文件 [root@master hadoop]# vim slaves

[root@master hadoop]# cat slaves 192.168.47.141 192.168.47.142

3. 新建目录

[root@master hadoop]# mkdir /usr/local/src/hadoop/tmp

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/name -p

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/data -p

4. 修改目录权限

[root@master hadoop]# chown -R hadoop:hadoop /usr/local/src/hadoop/

5. 同步配置文件到 Slave 节点

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave1:/usr/local/src/

The authenticity of host 'slave1 (192.168.47.141)' can't be established. ECDSA key fingerprint is SHA256:vnHclJTJVtDbeULN8jdOLhTCmqxJNqUQshH9g9LfJ3k. ECDSA key fingerprint is MD5:31:03:3d:83:46:aa:c4:d0:c9:fc:5f:f1:cf:2d:fd:e2. Are you sure you want to continue connecting (yes/no)? yes * * * * * * *

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave2:/usr/local/src/

The authenticity of host 'slave1 (192.168.47.142)' can't be established. ECDSA key fingerprint is SHA256:vnHclJTJVtDbeULN8jdOLhTCmqxJNqUQshH9g9LfJ3k. ECDSA key fingerprint is MD5:31:03:3d:83:46:aa:c4:d0:c9:fc:5f:f1:cf:2d:fd:e2. Are you sure you want to continue connecting (yes/no)? yes * * * * * * *

6、slave1、2节点配置（直接切换到slave2执行一样的命令）

#slave1 配置

[root@slave1 ~]# yum install -y vim

[root@slave1 ~]# vim /etc/profile

[root@slave1 ~]# tail -n 4 /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

[root@slave1 ~]# chown -R hadoop:hadoop /usr/local/src/hadoop/

[root@slave1 ~]# su - hadoop

上一次登录：四 2 月 24 11:29:00 CST 2022 从 192.168.41.148pts/1 上

[hadoop@slave1 ~]$ source /etc/profile

5.2.hadoop 集群运行

5.2.1.配置 Hadoop 格式化

. 步骤一：NameNode 格式化

将 NameNode 上的数据清零，第一次启动 HDFS 时要进行格式化，以后启动无需再格式化，否则会缺失 DataNode 进程。另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。

执行如下命令，格式化 NameNode

[root@master ~]# su – hadoop

[hadoop@master ~]# cd /usr/local/src/hadoop/

[hadoop@master hadoop]$ bin/hdfs namenode -format

结果：

20/05/02 16:21:50 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at master/192.168.1.6 ************************************************************/ 1.4.1.2.

步骤二：启动 NameNode 执行如下命令，启动 NameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start namenode

starting namenode, logging to /opt/module/hadoop-2.7.1/logs/hadoop-hadoop-namenode-master.out

5.2.2.查看 Java 进程

启动完成后，可以使用 JPS 命令查看是否成功。JPS 命令是 Java 提供的一个显示当前所有 Java 进程 pid 的命令。

[hadoop@master hadoop]$ jps

3557 NameNode

3624 Jps

5.2.2.1.步骤一：slave节点启动 DataNode

执行如下命令，启动 DataNode：

[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode

[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode

[hadoop@slave1 hadoop]$ jps

3557 DataNode

3725 Jps

[hadoop@slave2 hadoop]$ jps

3557 DataNode

3725 Jps

5.2.2.2.步骤二：启动 SecondaryNameNode

执行如下命令，启动 SecondaryNameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode

starting secondarynamenode, logging to /opt/module/hadoop-2.7.1/logs/hadoop-hadoop-secondarynamenode-master.out

[hadoop@master hadoop]$ jps

34257 NameNode

34449 SecondaryNameNode

34494 Jps

查看到有 NameNode 和 SecondaryNameNode 两个进程，就表明 HDFS 启动成功。

5.2.2.3步骤三：查看 HDFS 数据存放位置：

执行如下命令，查看 Hadoop 工作目录：

[hadoop@master hadoop]$ ll dfs/

总用量 0

drwx------ 3 hadoop hadoop 21 8 月 14 15:26 data

drwxr-xr-x 3 hadoop hadoop 40 8 月 14 14:57 name

[hadoop@master hadoop]$ ll ./tmp/dfs

总用量 0 45 drwxrwxr-x. 3 hadoop hadoop 21 5 月 2 16:34 namesecondary

可以看出 HDFS 的数据保存在/usr/local/src/hadoop/dfs 目录下，NameNode、 DataNode和/usr/local/src/hadoop/tmp/目录下,SecondaryNameNode 各有一个目录存放数据。

5.2.2.4.查看 HDFS 的报告

[hadoop@master sbin]$ hdfs dfsadmin -report

5.2.2.5.使用浏览器查看节点状态

在浏览器的地址栏输入http://master:50070，进入页面可以查看NameNode和DataNode 信息

可以使用 start-dfs.sh 命令启动 HDFS。这时需要配置 SSH 免密码登录，否则在启动过程中系统将多次要求确认连接和输入 Hadoop 用户密码。

[hadoop@master hadoop]$ stop-dfs.sh

[hadoop@master hadoop]$ start-dfs.sh

WordCount 官方案例

以上步骤完成后可以做一下如下测试：

运行测试：下面运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。

1）在 HDFS 文件系统中创建数据输入目录

确保 dfs 和 yarn 都启动成功

[hadoop@master hadoop]$ start-yarn.sh

[hadoop@master hadoop]$ jps

34257 NameNode

34449 SecondaryNameNode

34494 Jps

32847 ResourceManager

如果是第一次运行 MapReduce 程序，需要先在 HDFS 文件系统中创建数据输入目录，存放输入数据。这里指定/input 目录为输入数据的存放目录。

执行如下命令，在 HDFS 文件系统中创建/input 目录：

[hadoop@master hadoop]$ hdfs dfs -mkdir /input

[hadoop@master hadoop]$ hdfs dfs -ls /

Found 1 items

drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:26 /input

此处创建的/input 目录是在 HDFS 文件系统中，只能用 HDFS 命令查看和操作。

2）将输入数据文件复制到 HDFS 的/input 目录中测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt，内容如下所示。

[hadoop@master hadoop]$ cat ~/input/data.txt

Hello World

Hello Hadoop

Hello Huasan

执行如下命令，将输入数据文件复制到 HDFS 的/input 目录中：

[hadoop@master hadoop]$ hdfs dfs -put ~/input/data.txt /input

确认文件已复制到 HDFS 的/input 目录：

[hadoop@master hadoop]$ hdfs dfs -ls /input

Found 1 items

-rw-r--r-- 1 hadoop supergroup 38 2020-05-02 22:32 /input/data.txt

3）运行 WordCount 案例，计算数据文件中各单词的频度。

运行 MapReduce 命令需要指定数据输出目录，该目录为 HDFS 文件系统中的目录，会自动生成。如果在执行 MapReduce 命令前，该目录已经存在，则执行 MapReduce 命令会出错。例如 MapReduce 命令指定数据输出目录为/output，/output 目录在 HDFS 文件系统中已经存在，则执行相应的 MapReduce 命令就会出错。所以如果不是第一次运行 MapReduce，就要先查看HDFS中的文件，是否存在/output目录。如果已经存在/output 目录，就要先删除/output目录，再执行上述命令。自动创建的/output 目录在 HDFS 文件系统中，使用 HDFS 命令查看和操作。

[hadoop@master hadoop]$ hdfs dfs -mkdir /output

先执行如下命令查看 HDFS 中的文件：

[hadoop@master hadoop]$ hdfs dfs -ls /

Found 3 items

drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:32 /input

drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:49 /output

上述目录中/input 目录是输入数据存放的目录，/output 目录是输出数据存放的目录。执行如下命令，删除/output 目录。

[hadoop@master hadoop]$ hdfs dfs -rm -r -f /output

执行如下命令运行 WordCount 案例：（在浏览器的地址栏输入：http://master:8088，在界面也能看到新生成的目录）

[hadoop@master hadoop]$ hadoop jar share/hadoop/mapreduce/hado map op-- reduce-examples-2.7.1.jar wordcount /input/data.txt /output

可以使用 HDFS 命令直接查看 part-r-00000 文件内容，结果如下所示：

[hadoop@master hadoop]$ hdfs dfs -cat /output/part-r-00000

Hadoop 1

Hello 3

Huasan 1

World 1

可以看出统计结果正确，说明 Hadoop 运行正常。

5.3.停止 Hadoop

（注意节点，是哪一个节点停止）

5.3.1.停止 yarn

[hadoop@master hadoop]$ stop-yarn.sh

5.3.2.停止 DataNode

[hadoop@slave1 hadoop]$ hadoop-daemon.sh stop datanode

stopping namenode

[hadoop@slave2 hadoop]$ hadoop-daemon.sh stop datanode

stopping namenode

5.3.3.停止 NameNode

[hadoop@master hadoop]$ hadoop-daemon.sh stop namenode

stopping namenode

5.3.4.停止 SecondaryNameNode

[hadoop@master hadoop]$ hadoop-daemon.sh stop secondarynamenode

stopping secondarynamenode

5.3.5.查看 JAVA 进程

确认 HDFS 进程已全部关闭

[hadoop@master hadoop]$ jps

3528 Jps

30838 RunJar

六、Hive数据仓库组件

6.1下载和解压安装文件

1. 解压安装文件

[root@master ~]# tar zxf tools/apache-hive-2.0.0-bin.tar.gz -C /usr/local/src/

[root@master ~]# mv /usr/local/src/apache-hive-2.0.0-bin/ /usr/local/src/hive

[root@master ~]# chown -R hadoop:hadoop /usr/local/src/hive

6.2.设置 Hive 环境

1. 卸载 MariaDB 数据库

[root@master ~]# rpm -qa | grep mariadb mariadb-libs-5.5.56-2.el7.x86_64

[root@master ~]# rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64

2. 安装 MySQL 数据

[root@master tools]# cd mysql-5.7.18/

[root@master mysql-5.7.18]# rpm -ivh mysql-community-common-5.7.18- 1.el7.x86_64.rpm

[root@master mysql-5.7.18]# rpm -ivh mysql-community-libs-5.7.18-1.el7.x86_64.rpm

[root@master mysql-5.7.18]# rpm -ivh mysql-community-client-5.7.18- 1.el7.x86_64.rpm

[root@master mysql-5.7.18]# rpm -ivh mysql-community-server-5.7.18- 1.el7.x86_64.rpm

[root@master mysql-5.7.18]# vim /etc/my.cnf

[root@master mysql-5.7.18]# tail -n 8 /etc/my.cnf

[root@master mysql-5.7.18]# systemctl status mysqld

[root@master mysql-5.7.18]# cat /var/log/mysqld.log | grep password ---这里修改密码，一定记住这里查询的原始密码

[root@master mysql-5.7.18]# mysql_secure_installation

----yes or no 都是yes（除了下图的）2y 1n 2y

[root@master mysql-5.7.18]# mysql -uroot -p

(进入mysql可以做一个基础操作)

mysql>grant all privileges on *.* to root@'%' identified by 'Password123$';

mysql> flush privileges;

mysql> select user,host from mysql.user where user='root';

mysql> exit

6.3配置 Hive 组件

[root@master ~]# vim /etc/profile

[root@master ~]# tail -n 2 /etc/profile 55

export PATH=$PATH:$HIVE_HOME/bin export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

[root@master ~]# source /etc/profile

[root@master ~]# su - hadoop

[hadoop@master ~]$ vim /usr/local/src/hive/conf/hive-site.xml

7）在 Hive 安装目录中创建临时文件夹 tmp。

[hadoop@master ~]$ mkdir /usr/local/src/hive/tmp

6.4.初始化 hive 元数据

[hadoop@master tools]$ cp mysql-connector-java-5.1.46.jar /usr/local/src/hive/lib/ [hadoop@master tools]$ stop-all.sh

[hadoop@master tools]$ start-all.sh

[hadoop@master tools]$ hive

蘑古力～

关注

31
点赞
踩
21

收藏

觉得还不错? 一键收藏
6
评论
spark学习笔记！！！

古人云：工欲善其事必先利其器！gogogo！！！
复制链接

扫一扫

spark学习笔记！！！

一、Hadoop 平台安装

1.配置Linux系统基础环境（实验过程）

1.1.查看服务器的 IP 地址

1.2.设置服务器的主机名称

1.3.主机名与 IP 地址

1.4.查看 SSH 服务状态

1.5.关闭防火墙

1.6.创建 hadoop 用户

2.安装 JAVA 环境

2.1.下载 JDK 安装包

2.2.卸载自带 OpenJDK

2.3.安装 JDK

2.4.设置 JAVA 环境变量

二、安装 Hadoop 软件

2.安装 Hadoop 软件

2.1.安装命令如下，将安装包解压到/usr/local/src/目录下

2.2.配置 Hadoop 环境变量

2.3.修改目录所有者和所有者组

三、安装单机版 Hadoop 系统

3.1.配置 Hadoop 配置文件

3.2.测试 Hadoop 本地模式的运行

3.2.1.切换到 hadoop 用户

3.2.2.创建输入数据存放目录

3.2.3.创建数据输入文件

3.2.4. 测试 MapReduce 运行

四、Hadoop平台环境配置

4.1.实验环境下集群网络配置

4.1.1.修改主机名

4.1.2.修改主机配置文件“/etc/hosts”

4.2.SSH 无密码验证配置

4.2.1. 每个节点安装和启动 SSH 协议

4.2.2.切换到 hadoop 用户

4.2.3每个节点生成秘钥对

4.2.4.查看"/home/hadoop/"下是否有".ssh"文件夹

4.2.5.将 id_rsa.pub 追加到授权 key 文件中

4.2.6.修改文件"authorized_keys"权限

4.2.7.配置 SSH 服务(这里也是三个节点都)

4.2.8.重启 SSH 服务

4.2.9.切换到 hadoop 用户

4.2.10.验证 SSH 登录本机

4.2.11交换 SSH 密钥

4.2.11.1.将 Master 节点的公钥 id_rsa.pu复制到每个 Slave 点

4.2.11.2.在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件

4.2.11.3.在每个 Slave 节点删除 id_rsa.pub 文件

4.2.11.4.将每个 Slave 节点的公钥保存到 Master

4.2.12.验证 SSH 无密码登录

4.2.13.ssh各节点验证

4.3.配置两个子节点slave1、slave2的JDK环境。

五、Hadoop集群运行

5.1.Hadoop文件参数配置

5.1.1.在 Master 节点上安装 Hadoop

5.1.2.配置 hdfs-site.xml 文件参数

5.1.3.配置 core-site.xml 文件参数

5.1.4.配置 mapred-site.xml

5.1.5.配置 yarn-site.xml

5.1.6.Hadoop 其他相关配置

5.2.hadoop 集群运行

5.2.1.配置 Hadoop 格式化

5.2.2.查看 Java 进程

5.2.2.1.步骤一：slave节点 启动 DataNode

5.2.2.2.步骤二：启动 SecondaryNameNode

5.2.2.3步骤三：查看 HDFS 数据存放位置：

5.2.2.4.查看 HDFS 的报告

5.2.2.5.使用浏览器查看节点状态

WordCount 官方案例

5.3.停止 Hadoop

5.3.1.停止 yarn

5.3.2.停止 DataNode

5.3.3.停止 NameNode

5.3.4.停止 SecondaryNameNode

5.3.5.查看 JAVA 进程

六、Hive数据仓库组件

6.1下载和解压安装文件

6.2.设置 Hive 环境

6.3配置 Hive 组件

6.4.初始化 hive 元数据

5.2.2.1.步骤一：slave节点启动 DataNode