Spark的架构

传统的单机系统,虽然可以多核共享内存、磁盘等资源,但是当计算机与存储能力无法满足大规模数据处理的需要时,面对自身CPU和存储无法扩展的先天条件,单机系统就力不从心了。

1.分布式系统的架构

所谓的分布式系统,即为在网络互连的多个计算单元执行任务的软硬件系统,一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。Spark分布式系统框架可以看做分布式软件系统的组成部分,基于Spark,开发者可以编写分布式计算程序。
直观来看,大规模分布式系统由许多计算单元构成,每个计算单元之间的松耦合(所谓"耦合",指将两个元素像链子一样连接在一起。)
同时,每个计算单元都包含自己的CPU、内存、总线及硬盘等私有计算资源。这种分布式结构的最大特点在于不共享资源,于此同时,计算节点可以无限制扩展,计算能力和存储能力也因而的到巨大的增长,但是由于分布式架构的资源共享方面的先天缺陷,开发者在书写和优化程序时应引起注意,
分布式系统架构图:
在这里插入图片描述

为了减少网络I/O开销,分布式计算的一个核心原则是数据应该尽量做到本地计算,在计算过程中,每个计算单元之间需要传输信息,因此在信息传输信息,因此在信息传输较少时,分布式系统可以利用资源无限扩展的优势达到高频率,这也是分布式系统的优势,目前分布式系统在数据挖掘和决策支持等方面有着广泛的应用。
Spark正是在基于这种分布式并行架构产生的,也可以利用分布式架构的优势,根据需要,对计算能力和存储能力进行扩展,以应对处理海量数据带来的挑战,同时,Spark的快递及容错等特性,让数据处理分析显得游刃有余。

2.Spark的架构

Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点成为Master,同样,集群中含有Worker进程的节点为Slave,Master负责控制整个集群的运行,Worker节点相当于分布式系统中的计算节点,他接受Master节点指并返回计算进程到Master,Executor负责任务的执行,Client是用户提交应用的客户端,Driver负责协调提交后的分布式应用。具体架构:
在这里插入图片描述

在Spark应用的执行过程中,Driver和Worker是相互对应的,Driver’是应用逻辑执行的起点,负责Task任务的分发和调度,Worker负责管理计算机节点并创造Executor来并行处理Task任务,Task执行过程中所需要的文件和包由Driver序列化后传输给对应的Worker节点,Executor对相应的分区任务进行处理;
下面介绍一下Spark架构中的组件
1)Client:提交应用的客户端。
2)Driver:执行Application中的main函数并创建SparkContext。
3)ClusterManager:在YARN模式中为资源管理器。在Standalone模式中为Master(主节点),控制整个集群。
4)Worker:从节点,负责控制计算节点。启动Executor或Driver,在YARN模式中为NodeManager。
5)Executor:在计算节点上执行任务的组件。
6)SparkContext:应用的上下文,控制应用的生命周期。
7)RDD:弹性分布式数据集,Spark的基本计算单元,一组RDD可形成有向无环图。
8)DAG Scheduler:根据应用构建基于Stage的DAG,并将Stage提交给Task Scheduler。
9)Task Scheduler:将Task分发给Executor执行。
10)SparkEnv:线程级别的上下文,存储运行时重要组件的应用,具体如下:
①SparkConf:存储配置信息。
②BroadcastManager:负责广播变量的控制及元信息的存储。
③BlockManager:负责Block的管理、创建和查找。
④MetricsSystem:监控运行时的性能指标。
⑤MapOutputTracker:负责shuffle元信息的存储。

Spark架构揭示了Spark的具体流程如下:

1)用户在Client提交了应用。
2)Master找到Worker,并启动Driver。
3)Driver向资源管理器(YARN模式)或者Master(Standalone模式)申请资源,并将应用转化为RDD Graph。
4)DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。
5)Task Scheduler提交任务给Executor执行。
3. Spark运行逻辑
下面举例说明Spark的运行逻辑,如图1-4所示,在Action算子被触发之后,所有累积的算子会形成一个有向无环图DAG。Spark会根据RDD之间不同的依赖关系形成Stage,每个Stage都包含一系列函数执行流水线。图1-4中A、B、C、D、E、F为不同的RDD, RDD内的方框为RDD的分区。
在这里插入图片描述
图1-4中的运行逻辑如下:
1)数据从HDFS输入Spark。
2)RDD A、RDD C经过flatMap与Map操作后,分别转换为RDD B和RDD D。
3)RDD D经过reduceByKey操作转换为RDD E。
4)RDD B与RDD E进行join操作转换为RDD F。
5)RDD F通过函数saveAsSequenceFile输出保存到HDFS中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值