[ hadoop ] hadoop入门 : 组成架构.环境搭建.运行模式

最新推荐文章于 2024-07-22 15:47:24 发布

bone_ds

最新推荐文章于 2024-07-22 15:47:24 发布

阅读量4.6k

点赞数 2

分类专栏： hadoop 文章标签： hadoop 架构 big data

本文链接：https://blog.csdn.net/jason_bone_/article/details/123466891

版权

hadoop 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1 大数据概论

概念:

指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

需求:

大数据主要解决，海量数据的采集、存储和分析计算问题。

特点(4v):

Volumn(大量)
Velocity(高速)

大数据区分于传统挖掘的最显著特征
Variety(多样)

多样性让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。
Value(低价值密度)

价值密度的高低与数据总量的大小成反比。如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。

应用场景:

抖音,电商,零售,物流仓储,保险,金融,房产,人工智能,物联网,5G,虚拟现实

发展前景:

十九大,新基建,风口,紧缺,薪资

大数据部门间业务流程分析:

部门内组织结构:

2 Hadoop入门

2.1 Hadoop概述

定义:

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

2.2 优势

2.3 组成(重点)

Hadoop1.x ,2.x ,3.x区别

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。
在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。
Hadoop3.x在组成上没有变化。

2.4 HDFS架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。(HDFS分布式的管理者)
DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。(存储)
Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。(辅助nn)

2.5 YARN架构概述

Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

ResourceManager（RM）：整个集群资源（内存、CPU等）的老大(永久角色:唯一的资源分配者)(yarn分布式的管理者)
NodeManager（NM）：单个节点服务器资源老大(永久角色:结点的资源管理和收集,将结点资源信息汇报给RM再分配)
ApplicationMaster（AM）：单个任务运行的老大(临时角色:YARN收到提交的任务才会启动,负责管理整个MR的运行和监控当前任务的错误)(MR分布式的管理者)
Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。(临时角色:资源限定)

说明：

客户端可以有多个
集群上可以运行多个ApplicationMaster
每个NodeManager上可以有多个Container

2.6 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map(拆分)和Reduce(汇总)

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

2.7 三者关系(流程)

HDFS、YARN、MapReduce三者关系

HDFS存储数据:nn管理HDFS,dn存储(一个结点只有一个),2nn辅助nn
YARN分配资源
用户提交任务–>启动RM–>启动App Mstr–>启动MapTask在有数据的DN上寻找–>找到后通过Reduce Task汇总–>找回的结果存回到DN

2.8 大数据技术生态体系

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

2.9 推荐系统框架图

用户发送请求–>Nginx做服务器请求的负载均衡,减小服务器压力,转接请求到服务器(轮询)–>收集日志(Flume)–>Spark计算–>结果返回数据库–>推荐系统推送前排的分析结果(因此说明推荐系统的底层是大数据)

3 Hadoop运行环境搭建（开发重点）

3.1 Hadoop目录结构

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

3.2 在hadoop102安装JDK&Hadoop

/opt/下创建两个目录所属主,组均为zxk,module/,software/
XShell传输工具将JDK导入到opt目录下面的software文件夹下面
解压JDK到/opt/module目录下
配置全用户的全局环境变量:(这里没有选择复制脚本目录到/bin目录下,而是在特定目录中写脚本文件以修改PATH的值并将修改暴露在全局的环境内,source方式执行脚本)

方案一:

/etc/profile 写环境变量支持登录式shell 环境变量但是在/etc/proflile.d 去执行一个.sh 结尾的文件

方案二:

~/.bashrc 写环境变量支持非登录式shell 但是在/etc/proflile.d 去执行一个.sh 结尾的文件

结论:/etc/proflile.d/*.sh 中写环境变量既对登录式又对非登录式shell生效

实现:

(sudo)新建/etc/profile.d/my_env.sh文件–>添加如下内容:

#!/bin/bash
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH= $P A T H :$ JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin

–>source一下/etc/profile文件，让新的环境变量PATH生效

4 Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
多台服务器组成分布式环境。生产环境使用。

4.1 本地运行模式

官方WordCount案例:

创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

[atguigu@hadoop102 hadoop-3.1.3]$ mkdir wcinput
在wcinput文件下创建一个word.txt文件

[atguigu@hadoop102 hadoop-3.1.3]$ cd wcinput
编辑word.txt文件

[atguigu@hadoop102 wcinput]$ vim word.txt

在文件中输入如下内容

hadoop yarn

hadoop mapreduce

atguigu

atguigu

保存退出：:wq
回到Hadoop目录/opt/module/hadoop-3.1.3
执行程序

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
查看结果

[atguigu@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000

看到如下结果：

atguigu 2

hadoop 2

mapreduce 1

yarn 1

4.2 完全分布式运行模式（开发重点）

4.2.1 编写集群分发脚本xsync

1）scp（secure copy）安全拷贝

基本语法

scp -r pdir/fname user@host:pdir/fname

命令递归要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称

说明:

执行该命令需要目的主机,用户,目的地路径(存放文件的目录),名称
要拷贝文件可以是其他主机的文件
访问几次非本机主机则输入几次密码

2）rsync远程同步工具

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件(包括文件的差异内容)做更新。scp是把所有文件都复制过去。

基本语法

rsync -av pdir/fname user@host:pdir/fname

命令选项参数要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称

3）xsync集群分发脚本

循环复制文件到所有节点的相同目录下

在/home/atguigu/bin目录(已配置zxk用户的环境变量的目录下)下创建xsync脚本文件

[atguigu@hadoop102 opt]$ cd /home/atguigu

[atguigu@hadoop102 ~]$ mkdir bin

[atguigu@hadoop102 ~]$ cd bin

[atguigu@hadoop102 bin]$ vim xsync

在该文件中编写如下代码

#!/bin/bash//因为脚本没有.sh结尾,所以 没有颜色提示

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)//-P进入真实物理路径中,防止是软连接

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"//登录到别的主机上操作然后回来,创建父目录为了保证目的地目录路径存在,-p创建多层目录为了健壮性:无则创建,有则报错
                rsync -av $pdir/$fname $host:$pdir//没有指定目的用户因为默认值为另一台机器上的相同用户:为了统一文件权限
            else
                echo $file does not exists!
        fi
    done
done

修改该脚本的可执行权限:

[atguigu@hadoop102 bin]$ chmod +x xsync
使用脚本复制~/bin到集群:(每台连接输入2次密码:ssh,rsync各一次)

[atguigu@hadoop102 ~]$ xsync xsync
将脚本复制到/bin中，以便全局调用(使用的是root的全局环境变量)

sudo cp xsync /bin/
同步两个软件的环境变量配置(先发profile.d下的脚本所有者是root,再source)

[atguigu@hadoop102 ~]$ sudo xsync /etc/profile.d/my_env.sh

注意:如果没有执行第4步,使用sudo执行则不能在全局范围下

执行该命令后每连接一台主机输入两次root用户的密码
全部会话里执行source /etc/profile命令
完成集群的两个软件的环境变量的配置

4.2.2 SSH无密登录配置

语法:ssh另一台电脑的IP地址 (yes连接,exit退出)

配置:hadoop作为分布式系统架构,要求节点之间必须配置无密登录

生成公钥和私钥

[atguigu@hadoop102 .ssh]$ pwd

/home/atguigu/.ssh

[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免密登录的目标机器上

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意：

还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

还需要在hadoop104上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；
.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts 记录ssh访问过计算机的公钥（public key）
id_rsa 生成的私钥
id_rsa.pub 生成的公钥
authorized_keys 存放授权过的无密登录服务器公钥

known_hosts	记录ssh访问过计算机的公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

4.2.3 集群配置(重点)

hadoop中有两种非常重要的配置文件:

位置:/opt/module/hadoop-3.1.3/etc/hadoop目录下

内容:4个default存放默认值,4个site修改默认值,1个workers

read_only(只读):
core-default.xml common
hdfs-default.xml hdfs
yarn-default.xml yarn
mapred-default.xml mapreduce

修改以下文件来达成分布式目的:
core-site.xml common(该文件里包含用户名,个人更改)
hdfs-site.xml hdfs
yarn-site.xml yarn
mapred-site.xml mapreduce
在集群上分发配置好的Hadoop配置文件:

[zxk@hadoop102 etc]$ xsync hadoop/
修改workers,即指定dn和nm的启动位置为每个节点:

[zxk@hadoop102 etc]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

文件内容修改为:

hadoop102

hadoop103

hadoop104

同步到集群:

[zxk@hadoop102 etc]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/workers

说明:

以上为hadoop3.x版本

区别于hadoop2.x版本:workers–>slaves

4.2.4 群起集群

如果集群是第一次启动，需要在hadoop102节点格式化NameNode

[zxk@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

hadoop目录下多了data,logs两个目录

data/dfs/name存放nn数据文件(同级目录存放dn/nn的数据文件)

logs存放框架的日志信息
启动HDFS

[zxk@hadoop102 sbin]$ start-dfs.sh (在102上通过ssh和worker指定的节点启动另两台节点)
Starting namenodes on [hadoop102]
Starting datanodes
hadoop104: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
hadoop103: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
Starting secondary namenodes [hadoop104]
查看三个结点进程:jps(java process status)

[zxk@hadoop102 sbin]$ jps
1348 NameNode
1737 Jps
1468 DataNode

[zxk@hadoop103 ~]$ jps
1176 DataNode
1243 Jps

[zxk@hadoop104 ~]$ jps
1334 Jps
1180 DataNode
1245 SecondaryNameNode

Web端查看HDFS的NameNode

浏览器中输入：http://hadoop102:9870

查看HDFS上存储的数据信息

上传文件word.txt(因为core-site.xml修改静态用户为zxk,所以web界面使用的zxk的权限,这才可以操作linux来上传文件到集群)

hadoop是zxk用户装的,所以相当于root权限,3个副本,块大小128M(上限)

word.txt不是数据,是连接,可以点击下载

文件存储的位置(DN):(3个副本:每个节点同一位置保存一个副本–>150/3集群只能保存50g数据,只有节点数大于副本数才算是扩容了)

[zxk@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1746858774-192.168.202.102-1646292927372/current/finalized/subdir0/subdir0
[zxk@hadoop102 subdir0]$ ls
blk_1073741825//数据文件  
blk_1073741825_1001.meta//校验和文件
[zxk@hadoop102 subdir0]$ cat blk_1073741825
core-default.xml  common
hdfs-default.xml  hdfs
yarn-default.xml  yarn
mapred-default.xml mapreduce

linux里上传jdk压缩包:

[zxk@hadoop102 software]$ hadoop fs -put jdk-8u212-linux-x64.tar.gz /  //上传到hadoop存储的根目录
2022-03-03 16:08:31,842 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false//成功上传一块(128M)
2022-03-03 16:09:54,072 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

web端可以看到文件整体:

[zxk@hadoop102 subdir0]$ ll
总用量 191944
-rw-rw-r--. 1 zxk zxk       102 3月   3 15:49 blk_1073741825
-rw-rw-r--. 1 zxk zxk        11 3月   3 15:49 blk_1073741825_1001.meta
-rw-rw-r--. 1 zxk zxk 134217728 3月   3 16:09 blk_1073741826//第一块
-rw-rw-r--. 1 zxk zxk   1048583 3月   3 16:09 blk_1073741826_1002.meta
-rw-rw-r--. 1 zxk zxk  60795424 3月   3 16:10 blk_1073741827//第二块
-rw-rw-r--. 1 zxk zxk    474975 3月   3 16:10 blk_1073741827_1003.meta
[zxk@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1746858774-192.168.202.102-1646292927372/current/finalized/subdir0/subdir0

通过id:826,827保证文件前后次序,拼接两块检验(文件完整)是否能解压后还原成jdk软件包:

[zxk@hadoop102 subdir0]$ cd /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1746858774-192.168.202.102-1646292927372/current/finalized/subdir0/subdir0//文件块存储位置
[zxk@hadoop102 subdir0]$ cat blk_1073741826 >> 1.tar.gz
[zxk@hadoop102 subdir0]$ cat blk_1073741827 >> 1.tar.gz//拼接文件
[zxk@hadoop102 subdir0]$ mv 1.tar.gz /opt/software/
[zxk@hadoop102 subdir0]$ cd /opt/software/
[zxk@hadoop102 subdir0]$ tar -zxvf 1.tar.gz //解压拼接的文件

[zxk@hadoop102 software]$ ll
总用量 711052
-rw-rw-r--. 1 zxk zxk 195013152 3月   3 16:21 1.tar.gz
-rw-rw-r--. 1 zxk zxk 338075860 3月   1 17:57 hadoop-3.1.3.tar.gz
drwxr-xr-x. 7 zxk zxk      4096 4月   2 2019 jdk1.8.0_212//还原成完整的jdk
-rw-rw-r--. 1 zxk zxk 195013152 3月   1 17:57 jdk-8u212-linux-x64.tar.gz

打开web界面可以正常下载已上传的文件(3个dn都在),102输入kill -9 pid(dn),依旧能下载dn里的数据,103输入kill -9 pid(dn),依旧能下载dn里的数据,104输入kill -9 pid(dn),不能访问dn数据了,102输入kill -9 pid(nn),web界面打不开了(说明nn存在单点故障问题).

启动yarn

如果有hdfs的进程关闭了,重启集群的hdfs

103上启动yarn:

start-yarn.sh

三台机器进程(每台三个进程):

[zxk@hadoop102 software]$ jps
1348 NameNode
2087 Jps
1468 DataNode
1983 NodeManager
[zxk@hadoop103 ~]$ jps
1440 ResourceManager
1557 NodeManager
1176 DataNode
1900 Jps
[zxk@hadoop103 ~]$ jps
1440 ResourceManager
1557 NodeManager
1176 DataNode
1900 Jps

Web端查看YARN的ResourceManager

浏览器中输入：http://hadoop103:8088,查看YARN上运行的Job信息

跑任务:

上传文件word.txxt到/input–>

[zxk@hadoop102 software]$ cd /opt/module/hadoop-3.1.3/
[zxk@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

yarn的web端可以看到任务:(application)

hdfs的web端可以看到统计结果:/output/part-r-0000

4.2.5 集群常见问题

web界面打不开:

使用谷歌/火狐浏览器,linux系统的防火墙关闭,windows里的ip映射:使用ip代替主机名,jps检查nn进程
dn起不来:

直接重新格式化nn导致,查看data/里的logs/下的datanode的日志:tail -2000 hadoop-zxk-datanode-hadoop102.log

内容里有异常:DataNode的clusterID不等于集群ID

原因:

格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。

集群id(clusterID)分别在nn和dn各自存放数据的目录的VERSION文件中.

解决:

先关闭hdfs,将dn中保存的数据文件(subdir0目录下)迁移备份,再删除所有机器的data和logs目录，然后再进行格式化.

4.2.6 进程的启动方式

模块群起
hdfs/nn所在节点 start-dfs.sh
yarn/rm所在节点 start-yarn.sh
服务单点起
hdfs:
nn hdfs --daemon start namenode(daemen:守护进程,即后台模式运行,不占用前台界面)
dn hdfs --daemon start datnode
2nn hdfs --dameon start secondrynamenode

yarn :
rm yarn --daemon start resourcemanager
nm yarn --daemon start nodemanager

先关进程(先开的后关)再关机

4.2.7 历史服务器的配置

重启yarn之后进程记录会丢失,为了查看(MR)程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

1）配置mapred-site.xml

2）分发配置

3）在hadoop102启动历史服务器:mapred --daemon start historyserver

4）查看历史服务器是否启动

5）查看JobHistory:http://hadoop102:19888/jobhistory

通过yarn的进程的history也能查看历史运行情况:

问题:点击logs没法查看(MR)日志

4.2.8 配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

步骤:配置yarn-site.xml(日志由默认的永久改为保存7天)–>分发配置–>重启雅恩和历史服务器–>自此以后执行成功的程序才可以查看到日志(除了mr的,其不运行在具体节点上,而是yarn上)

4.2.9 常用端口号总结

端口名称	Hadoop2.x	Hadoop3.x
namenode 内部通信端口	8020	8020
namenode Web界面端口	50070	9870
ResourceManager通信端口	8032	8032
ResourceManager 查看执行任务端口	8088	8088
历史服务器端口	19888	19888

4.2.10 一键操作集群

一键群起/群关集群

在102的~/bin目录下编写myhadoop.sh:

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
	ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存后退出，然后赋予脚本执行权限,分发

一键查看集群所有节点java进程

在102的~/bin目录下编写jpsall.sh:

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo "=============== $host ==============="
        ssh $host jps $1 |grep -v Jps//-v过滤掉包含该信息的那行
done

保存后退出，然后赋予脚本执行权限,分发

说明:

jps:只打印main方法所在类名

jps -l :打印全类名,即附带包名

jpsall.sh -l:打印各节点的进程所在全类名

4.2.11 集群时间同步

打开ntpd服务和开启自启

sudo systemctl start ntpd

sudo systemctl enable ntpd

bone_ds

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
[ hadoop ] hadoop入门 : 组成架构.环境搭建.运行模式

1 大数据概论概念:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。需求:大数据主要解决，海量数据的采集、存储和分析计算问题。特点(4v):Volumn(大量)Velocity(高速)大数据区分于传统挖掘的最显著特征Variety(多样)多样性让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网
复制链接

扫一扫

专栏目录