大数据平台运维

一.Hadoop平台安装

实验环境

实验过程

一.配置 Linux 系统基础环境
1.查看服务器的 IP 地址

[root@localhost ~]# ip add show

2.设置服务器的主机名称

[root@localhost ~]# hostnamectl set-hostname master

[root@localhost ~]# bash

[root@master ~]# hostname master

3.绑定主机名与 IP 地址

[root@master ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4

localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master

4.查看 SSH 服务状态

[root@master ~]# systemctl status sshd

5.关闭防火墙

[root@master ~]# systemctl stop firewalld

[root@master ~]# systemctl status firewalld

[root@master ~]# systemctl disable firewalld 永久关闭防火墙

6.创建 hadoop 用户

[root@master ~]# useradd hadoop

[root@master ~]# echo "1" |passwd --stdin hadoop

二.安装 JAVA 环境

1.下载 JDK 安装包

JDK 安 装 包 需 要 在 Oracle 官 网 下 载 , 下 载 地 址 为 : 20 https://www.oracle.com/java /technologies /javase-jdk8-downloads.html,本教材采用 的 Hadoop 2.7.1 所需要的 JDK 版本为 JDK7 以上

2.卸载自带 OpenJDK

[root@master ~]# rpm -qa | grep java

[root@master ~]# rpm -e --nodeps javapackages-tools-3.4.1-11.el7.noarch

[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-1.8.0.352.b08- 2.el7_9.x86_64 [root@master ~]# rpm -e --nodeps tzdata-java-2022e-1.el7.noarch

[root@master ~]# rpm -e --nodeps python-javapackages-3.4.1-11.el7.noarch

[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.352.b08- 2.el7_9.x86_64 [root@master ~]# rpm -qa | grep java

查看结果

[root@master ~]# java --version

bash: java: 未找到命令

3.安装 JDK

解压软件包

[root@master ~]# tar -zxvf /opt/software/jdk-8u152-linux-x64.tar.gz -C /usr/local/src/ [root@master ~]# ls /usr/local/src/ jdk1.8.0_152 1.4.2.4.

4.设置 JAVA 环境变量

root@master ~]# vi /etc/profile

在文件的最后增加如下两行:

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

执行 source 使设置生效:

[root@master ~]# source /etc/profile

检查 JAVA 是否可用。 [root@master ~]# echo $JAVA_HOME /usr/local/src/jdk1.8.0_152 [root@master ~]# java -version

java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16)

Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

能够正常显示 Java 版本则说明 JDK 安装并配置成功。

二.安装 Hadoop 软件

1.获取 Hadoop 安装包

Apache Hadoop 各 个 版 本 的 下 载 网 址 : https://archive.apache.org/dist/hadoop /common/。本教材选用的是 Hadoop 2.7.1 版本,安装包为 hadoop-2.7.1.tar.gz。需要先下载 Hadoop 安装包,再上传到 Linux 系统的/opt/software 目录。

2.安装 Hadoop 软件

安装包解压到/usr/local/src/目录下

[root@master ~]# tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src/

[root@master ~]# ll /usr/local/src/

查看 Hadoop 目录: [root@master ~]# ll /usr/local/src/hadoop-2.7.1/

3.配置 Hadoop 环境变量

[root@master ~]# vi /etc/profile 在文件的最后增加如下两行:

export HADOOP_HOME=/usr/local/src/hadoop-2.7.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行 source 使用设置生效: [root@master ~]# source /etc/profile

检查设置是否生效: [root@master ~]# hadoop

4.修改目录所有者和所有者组

[root@master ~]# chown -R hadoop:hadoop /usr/local/src/

[root@master ~]# ll /usr/local/src/

三.安装单机版 Hadoop 系统

一.配置 Hadoop 配置文件

[root@master ~]# cd /usr/local/src/hadoop-2.7.1/

[root@master hadoop-2.7.1]# ls

bin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin share

[root@master hadoop-2.7.1]# vi etc/hadoop/hadoop-env.sh

在文件中查找 export JAVA_HOME 这行,将其改为如下所示内容:

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

二.测试 Hadoop 本地模式的运行

1.切换到 hadoop 用户

使用 hadoop 这个用户来运行 Hadoop 软件。

[root@master hadoop-2.7.1]# su - hadoop

[hadoop@master ~]$ id

2.创建输入数据存放目录

将输入数据存放在~/input 目录(hadoop 用户主目录下的 input 目录中)。

[hadoop@master ~]$ mkdir ~/input

[hadoop@master ~]$ ls

3.创建数据输入文件

[hadoop@master ~]$ vi input/data.txt 输入如下内容,保存退出。

Hello World

Hello Hadoop

Hello Husan

4.测试 MapReduce 运行

[hadoop@master ~]$ hadoop jar /usr/local/src/hadoop2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount ~/input/data.txt ~/output

[hadoop@master ~]$ ll output/

[hadoop@master ~]$ cat output/part-r-00000

四.Hadoop平台环境配置

一.实验环境下集群网络配置

[root@localhost ~]# hostnamectl set-hostname slave1

[root@localhost ~]# bash

[root@slave1 ~]#

修改 slave2 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave2

[root@localhost ~]# bash

[root@slave2 ~]#

根据实验环境下集群网络 IP 地址规划(根据自己主机的ip即可):

master 设置 IP 地址是“192.168.47.140”,掩码是“255.255.255.0”; slave1 设置 IP 地址“192.168.47.141”,掩码是“255.255.255.0”; slave2 设置 IP 地址是“192.168.47.142”,掩码是“255.255.255.0”。 根据我们为 Hadoop 设置的主机名为“master、slave1、slave2”,映地址是 “192.168.47.140、192.168.47.141、192.168.47.142”,分别修改主机配置文件“/etc/hosts”, 在命令终端输入如下命令:

[root@master ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master

192.168.47.141 slave1

192.168.47.142 slave2

[root@slave1 ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master

192.168.47.141 slave1

192.168.47.142 slave2

[root@slave2 ~]# vi /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 28

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.47.140 master

192.168.47.141 slave1

192.168.47.142 slave2

二.SSH 无密码验证配置

一.生成 SSH 密钥
1.每个节点安装和启动 SSH 协议(实现 SSH 登录需要 openssh 和 rsync 两个服务)

可以通过下面命令查看结果。

[root@master ~]# rpm -qa | grep openssh

2.切换到 hadoop 用户

[root@master ~]# su - hadoop

[hadoop@master ~]$

[root@slave1 ~]# useradd hadoop

[root@slave1 ~]# su - hadoop

[hadoop@slave1 ~]$

[root@slave2 ~]# useradd hadoop

[root@slave2 ~]# su - hadoop

[hadoop@slave2 ~]$

3.每个节点生成秘钥对

[hadoop@master ~]$ ssh-keygen -t rsa

[hadoop@slave1 ~]$ ssh-keygen -t rsa

[hadoop@slave2 ~]$ ssh-keygen -t rsa

4.查看"/home/hadoop/"下是否有".ssh"文件夹,且".ssh"文件下是否有两个刚 生产的无密码密钥对。

[hadoop@master ~]$ ls ~/.ssh/

id_rsa id_rsa.pub

5.将 id_rsa.pub 追加到授权 key 文件中

#master

[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@master ~]$ ls ~/.ssh/

authorized_keys id_rsa id_rsa.pub

slave1&&slave2同理

6.修改文件"authorized_keys"权限

#master

[hadoop@master ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@master ~]$ ll ~/.ssh/

slave1&&slave2同理

7.配置 SSH 服务

#master

[hadoop@master ~]$ su - root

[root@master ~]# vi /etc/ssh/sshd_config

PubkeyAuthentication yes #找到此行,并把#号注释删除。

slave1&&s​​​​​​​lave2同理

8.重启 SSH 服务

[root@master ~]# systemctl restart sshd

9.切换到 hadoop 用户

[root@master ~]# su - hadoop

10.验证 SSH 登录本机

[hadoop@master ~]$ ssh localhost

首次登录时会提示系统无法确认 host 主机的真实性,只知道它的公钥指纹,询问用户是 否还想继续连接。需要输入“yes”,表示继续登录。第二次再登录同一个主机,则不会再 出现该提示,可以直接进行登录。 读者需要关注是否在登录过程中是否需要输入密码,不需要输入密码才表示通过密钥认 证成功。

二.交换 SSH 密钥
1.将 Master 节点的公钥 id_rsa.pub 复制到每个 Slave 点

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave1:~/

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave2:~/

2.在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件

[hadoop@slave1 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

3.在每个 Slave 节点删除 id_rsa.pub 文件

[hadoop@slave1 ~]$ rm -rf ~/id_rsa.pub

[hadoop@slave2 ~]$ rm -rf ~/id_rsa.pub

4.将每个 Slave 节点的公钥保存到 Master

(1)将 Slave1 节点的公钥复制到 Master

[hadoop@slave1 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

(2)在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

(3)在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

(4)将 Slave2 节点的公钥复制到 Master

[hadoop@slave2 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

(5)在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

(6)在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

三.验证 SSH 无密码登录

1.查看 Master 节点 authorized_keys 文件

[hadoop@master ~]$ cat ~/.ssh/authorized_keys

2.查看 Slave 节点 authorized_keys 文件

[hadoop@slave1 ~]$ cat ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/.ssh/authorized_keys

3.验证 Master 到每个 Slave 节点无密码登录

[hadoop@master ~]$ ssh slave1

[hadoop@master ~]$ ssh slave2

4.验证两个 Slave 节点到 Master 节点无密码登录

[hadoop@slave1 ~]$ ssh master

[hadoop@slave2 ~]$ ssh master

5.配置两个子节点slave1、slave2的JDK环境。

[root@master ~]# cd /usr/local/src/

[root@master src]# ls hadoop-2.7.1 jdk1.8.0_152

[root@master src]# scp -r jdk1.8.0_152 root@slave1:/usr/local/src/

[root@master src]# scp -r jdk1.8.0_152 root@slave2:/usr/local/src/

#slave1

[root@slave1 ~]# ls /usr/local/src/

jdk1.8.0_152

[root@slave1 ~]# vi /etc/profile #此文件最后添加下面两行

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

[root@slave1 ~]# source /etc/profile

[root@slave1 ~]# java -version

java version "1.8.0_152"

Java(TM) SE Runtime Environment (build 1.8.0_152-b16)

Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

slave2同理

二.Hadoop集群运行

Hadoop文件参数配置

一.在 Master 节点上安装 Hadoop

1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop

[root@master ~]# cd /usr/local/src/

[root@master src]# mv hadoop-2.7.1 hadoop

[root@master src]# ls hadoop jdk1.8.0_152

2. 配置 Hadoop 环境变量

[root@master src]# yum install -y vim

[root@master src]# vim /etc/profile

[root@master src]# tail -n 4 /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

3. 使配置的 Hadoop 的环境变量生效

[root@master src]# su - hadoop

[hadoop@master ~]$ source /etc/profile

[hadoop@master ~]$ exit 登出

4. 执行以下命令修改 hadoop-env.sh 配置文件

[root@master src]# cd /usr/local/src/hadoop/etc/hadoop/

[root@master hadoop]# vim hadoop-env.sh #修改以下配置 export JAVA_HOME=/usr/local/src/jdk1.8.0_152

二.配置 hdfs-site.xml 文件参数

root@master hadoop]# vim hdfs-site.xml #编辑以下内容

三.配置 core-site.xml 文件参数

[root@master hadoop]# vim core-site.xml #编辑以下内容

四.配置 mapred-site.xml

[root@master hadoop]# pwd

/usr/local/src/hadoop/etc/hadoop

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]# vim mapred-site.xml #添加以下配置

 五.配置 yarn-site.xml

[root@master hadoop]# vim yarn-site.xml

 六.Hadoop 其他相关配置

1. 配置 masters 文件

[root@master hadoop]# vim masters

192.168.47.140

2. 配置 slaves 文件

[root@master hadoop]# vim slaves

 192.168.47.141

192.168.47.142

3. 新建目录

[root@master hadoop]# mkdir /usr/local/src/hadoop/tmp

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/name -p

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/data -p

4. 修改目录权限

[root@master hadoop]# chown -R hadoop:hadoop /usr/local/src/hadoop/

5. 同步配置文件到 Slave 节点

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave1:/usr/local/src/

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave2:/usr/local/src/

#slave1 配置

[root@slave1 ~]# yum install -y vim

[root@slave1 ~]# vim /etc/profile

[root@slave1 ~]# tail -n 4 /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

[root@slave1 ~]# chown -R hadoop:hadoop /usr/local/src/hadoop/

[root@slave1 ~]# su - hadoop

[hadoop@slave1 ~]$ source /etc/profile

slave2同步

大数据平台集群运行

一.配置 Hadoop 格式化

1.NameNode 格式化

将 NameNode 上的数据清零,第一次启动 HDFS 时要进行格式化,以后启动无 需再格式化,否则会缺失 DataNode 进程。另外,只要运行过 HDFS,Hadoop 的 工作目录(本书设置为/usr/local/src/hadoop/tmp)就会有数据,如果需要重 新格式化,则在格式化之前一定要先删除工作目录下的数据,否则格式化时会 出问题。

执行如下命令,格式化 NameNode

[root@master ~]# su – hadoop

[hadoop@master ~]# cd /usr/local/src/hadoop/

[hadoop@master hadoop]$ bin/hdfs namenode –format

2.启动 NameNode

[hadoop@master hadoop]$ hadoop-daemon.sh start namenode

二.查看 Java 进程

[hadoop@master hadoop]$ jps

3557 NameNode

3624 Jps

1.slave节点 启动 DataNode

[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode

[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode

2.启动 SecondaryNameNode

[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode

查看到有 NameNode 和 SecondaryNameNode 两个进程,就表明 HDFS 启动成 功。

3.查看 HDFS 数据存放位置

[hadoop@master hadoop]$ ll dfs/

[hadoop@master hadoop]$ ll ./tmp/dfs

三.查看 HDFS 的报告

[hadoop@master sbin]$ hdfs dfsadmin -report

四.使用浏览器查看节点状态

在浏览器的地址栏输入http://master:50070,进入页面可以查看NameNode和DataNode 信息

在浏览器的地址栏输入 http://master:50090,进入页面可以查看 SecondaryNameNode信息

可以使用 start-dfs.sh 命令启动 HDFS。这时需要配置 SSH 免密码登录,否则在 启动过程中系统将多次要求确认连接和输入 Hadoop 用户密码。  

[hadoop@master hadoop]$ stop-dfs.sh

[hadoop@master hadoop]$ start-dfs.sh

1.在 HDFS 文件系统中创建数据输入目录

[hadoop@master hadoop]$ start-yarn.sh

[hadoop@master hadoop]$ jps

34257 NameNode

34449 SecondaryNameNode

34494 Jps

32847 ResourceManager

如果是第一次运行 MapReduce 程序,需要先在 HDFS 文件系统中创建数据输入目 录,存放输入数据。这里指定/input 目录为输入数据的存放目录

[hadoop@master hadoop]$ hdfs dfs -mkdir /input

[hadoop@master hadoop]$ hdfs dfs -ls /

2.将输入数据文件复制到 HDFS 的/input 目录中

[hadoop@master hadoop]$ cat ~/input/data.txt

执行如下命令,将输入数据文件复制到 HDFS 的/input 目录中: [hadoop@master hadoop]$ hdfs dfs -put ~/input/data.txt /input

确认文件已复制到 HDFS 的/input 目录: [hadoop@master hadoop]$ hdfs dfs -ls /input

3.运行 WordCount 案例,计算数据文件中各单词的频度

[hadoop@master hadoop]$ hdfs dfs -mkdir /output

先执行如下命令查看 HDFS 中的文件: [hadoop@master hadoop]$ hdfs dfs -ls /

执 行如下命令,删除/output 目录。 [hadoop@master hadoop]$ hdfs dfs -rm -r -f /output

执行如下命令运行 WordCount 案例:

[hadoop@master hadoop]$ hadoop jar share/hadoop/mapreduce/hado map op-- reduce-examples-2.7.1.jar wordcount /input/data.txt /output

在浏 览器的地址栏输入:http://master:8088

 在浏览器的地址栏输入 http://master:50070

 查看 output 目录

 可以使用 HDFS 命令直接查看 part-r-00000 文件内容,结果如下所示:

[hadoop@master hadoop]$ hdfs dfs -cat /output/part-r-00000

五.停止 Hadoop

1.停止 yarn

[hadoop@master hadoop]$ stop-yarn.sh

2.停止 DataNode

[hadoop@slave1 hadoop]$ hadoop-daemon.sh stop datanode

3.停止 SecondaryNameNode

[hadoop@master hadoop]$ hadoop-daemon.sh stop secondarynamenode

4.查看 JAVA 进程,确认 HDFS 进程已全部关闭

[hadoop@master hadoop]$ jps

3528 Jps

30838 RunJar

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值