Spark 基础教程

最新推荐文章于 2023-06-12 21:54:11 发布

稷下小鲤鱼

最新推荐文章于 2023-06-12 21:54:11 发布

阅读量1.6k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_43057549/article/details/109321729

版权

Spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

Spark特点

运行速度快：Spark使用先进的DAG(Directed Acyclic Graph，有向无环图)执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比Hadoop MapReduce快上百倍，基于磁盘的执行速度也能快10倍。
容易使用：Spark支持使用Scala、Java、Python和R语言进行编程，简洁的API设计有助于用户轻松构建并行程序，并且可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件。这些组件可以无缝整合在一个应用中，足以面对复杂的计算。
运行模式多样：Standalone，Spark on Mesos，Spark on Yarn

Spark相对于Hadoop的优势
Hadoop已经成为大数据技术的事实标准，但是它仍然有很多缺陷，如：MapReduce计算模型延迟过高，无法胜任实时、快速计算的需求，因此只适用于离线批处理的应用场景。
Hadoop的缺点：

表达能力有限，计算都必须转成Map和Reduce两个操作，着并不适合所有的情况，难以描述复杂的数据处理过程。
磁盘IO开销大，每次执行时都需要从磁盘读取数据，并且在计算完成后需要将中间结果写入到磁盘中，IO开销过大
延迟高，一次计算可能需要分解成一系列按照循序执行的MapReduce任务，任务之间的衔接涉及IO开销，会产生较高的延迟

Spark的优点：

Spark的计算模式也属于MapReduce，但是不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比MapReduce更加灵活
Spark提供了内存计算，中间结果直接放到内存中，带来了更高的迭代运算效率
Spark基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制

Spark最大的特点是将计算数据、中间数据都保存在内存中，大大减少了IO开销。Spark不能替代Hadoop，主要用于替代Hadoop中的MapReduce计算模型。它可以借助Yarn实现资源调度管理，借助HDFS实现分布式存储。

Spark基本概念

Master：负责管理worker节点，我们从master节点提交应用
Worker：负责与master节点通信，并且管理executor进程
RDD：弹性分布式数据集，是分布式内存的一个抽象概念，提供了一种高度共享的内存模型
DAG：Directed Acyclic Graph(有向无环图)，反应了RDD之间的依赖关系
Executor：是运行在工作节点(Worker Node)上的一个进程，负责运行任务，并为应用程序存储数据
Driver：Driver进程是应用程序的main函数，并且构建SparkContext对象，当我们提交应用后，变回启动对应的Driver进程，Driver本身会根据我们设置的参数占有一定的资源。
Driver可以运行在master上，也可以运行在worker(根据部署模式的不同，-deploy-mode端运行在Client上还是Cluster上)。Driver首先会向集群资源管理者申请Spark应用所需的资源，也就是container，用来启动executor。然后，集群资源管理者会根据Spark应用程序所设置的参数在各个Worker上分配一定数量的executor，每个executor都占用一定数量的CPU和Memory。Driver进程会将我们编写的Spark应用代码拆分成多个Stage，每个Stage执行一部分代码片段，并为每个stage创建一批task，然后将task分配到各个executor中执行。
executor进程在worker节点上，一个worker节点有多个executor进程。每个executor进程有一个线程池，每个线程可以执行一个task，executor执行完task后，将结果返回给Driver。
Application：用户编写的Spark应用程序
Task：运行在Executor上的工作单元
job：一个作业包含多个RDD及作用在RDD上的各自操作
stage：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者被称为任务集

Spark结构设计

Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个工作节点上负责具体任务的执行进程(Executor)。集群资源管理器可以是Spark自带的资源管理器，也可以是Yarn等资源管理框架。

在这里插入图片描述
Spark各自概念之间的关系

在Spark中，一个应用(Application)由一个任务控制节点(Driver)和若干个作业(Job)组成。一个作业由多个阶段(Stage)构成，一个阶段由多个任务(Task)组成。当执行一个应用时，任务控制节点会向集群管理器(Cluster Manager)申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后再Executor上执行任务，运行任务结束后，执行结果会返回给任务控制节点，或者写到HDFS或者其他数据库中。

Executor的优点

利用多线程来执行具体的任务(Hadoop MapReduce采用的是进程模型)，减少任务的启动开销
Executor中有一个BlockManager存储模块，会将内存和磁盘共同作为存储设备，当需要多代迭代计算时，可以将中间结果存储到这个存储模块里，以便下次直接读存储模块里的数据，而不需要读写到HDFS文件系统里，因而有效减少了IO开销；或者在交互式查询场景下，预先将表缓存到该存储系统上，从而提高读写IO性能。

Spark运行基本流程

当一个Spark应用程序被提交时，首先需要这个应用构建基本的运行环境，即由任务控制节点(Driver)创建一个SparkContext，由SparkContext负责与资源管理器(Cluster Manager)进行通信，以及资源的申请，任务的分配和监控等
资源管理器为Executor分配资源，并启动Executor进程，Executor运行情况将随着心跳发送给资源管理器上
SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAG调度器(DAGScheduler)进行解析，将DAG图分解为多个"阶段"(每个阶段都是一个任务集)，并且计算出各个阶段之间的依赖关系，然后将一个个的任务集提交给底层的任务调度器(TaskScheduler)进行处理；Executor向SparkContext申请任务，任务调度器将任务分发给Executor运行，同时，SparkContext将应用程序发放给Executor。
任务在Executor上运行，把执行结果反馈给任务调度器，返回反馈给DAG调度器，运行完毕后写入数据释放所有的资源。

Spark运行架构的特点

1 每个应用都有属于自己的Executor进程，并且该进程在应用程序期一直驻留。Executor进程以多线程方式运行任务，减少了多进程任务频繁的启动开销，使得任务执行变得非常高效和可靠。
2 Spark运行过程与资源管理器无关，只要能够获取Executor进程并保持通信即可
3 Executor上有一个BlockManager存储模块，类似于键值存储系统(把内存和磁盘共同作为存储设备)，在处理迭代计算任务时，不需要将中间结果写入到HDFS等文件系统，而是直接放到这个存储系统上，后续有需要就可以直接读取；在交互式查询的场景下，也可以把表提前缓存到这个存储系统上，提高IO性能。
4 任务采用了数据本地性和推测执行等优化机制。数据本地性是尽量将计算移到数据所在的节点上进行，即"计算向数据靠拢"，因为移动计算比移动数据所占的网络资源要少得多。Spark采用了延迟调度机制，可以在更大的程度上实现执行过程优化。比如，拥有数据的节点当前正被其他的任务占用，那么在这种情况下是否需要将数据移动到其他的空闲节点呢？答案是不一定，因为，如果经过预测发现当前节点结束当前任务的时间，要比移动数据的时间要少，那么调度就会等待，直到当前节点可用。

Spark的部署模式

Spark支持三种典型集群部署模式，即standalone、Spark on Mesos和Spark on Yarn；在企业实际开发环境中，针对不同的应用场景，可用采用不同的部署应用方式，或者采用Spark完全替代原有的Hadoop架构，或者Spark和Hadoop一起部署的方式。

Spark三种部署方式

Spark应用程序在集群上部署运行时，可用由不同的组件为其提供资源管理调度服务(资源包含CPU，内存)。比如，可用使用自带的独立集群管理器(standalone)，或者使用Yarn，也可以使用Mesos。因此，Spark包括三种不同类型的集群部署方式，包括standalone，Spark on Yarn和Spark on Mesos。

standalone模式
与MapReduce1.0框架类似，Spark框架本身自带了完整的资源调度管理服务，可以独立部署到一个集群中，而不需要依赖其它系统来为其提供资源管理调度服务。在架构的设计上，Spark与MapReduce1.0完全一致，都是由一个Master和若干个Slave构成，并且以槽(slot)作为资源分配单位。不同的是，Spark中的槽不再像MapReduce1.0那样分为Map槽和Reduce槽，而是只设计了统一的一种槽提供给各种任务来使用。
Spark on Messos模式
Messos是一种资源调度管理框架，可以为运行在它上面的Spark提供服务，Spark on Messos模式中，Spark程序所需要的各种资源，都是由Messos负责调度。由于Mesos和Spark有一定的血缘关系，因为，Spark这个框架在进行设计开发的时候，就需要充分考虑了对Mesos的充分支持。因此Spark上运行Mesos要比运行Yarn上更加灵活、自然。目前，Spark官方推荐使用这这模式。
Spark on Yarn模式
Spark可运行在Yarn之上，与Hadoop进行统一部署，架构如下，资源管理和调度依赖Yarn，分布式存储则依赖HDFS。
Spark On Yarn支持Client和Cluster模式：通过-deploy-mode指定将Driver端运行在Client还是Cluster。

Hadoop和Spark的统一部署
一方面，由于Hadoop生态系统中的一些组件所实现的功能，目前不能由Spark取代，比如Storm可以实现毫秒级响应的流计算，但是，Spark则无法做到毫秒级别的响应。
另一方面，企业中现有的应用，都是基于现有的Hadoop组件开发的，完全转移到Spark上需要一定的成本。因此，在许多企业实际应用中，Hadoop和Spark的统一部署是一种比较现实合理的选择。

由于Hadoop MapReduce、HBase、Storm和Spark等，都可以运行在资源管理框架Yarn之上。因此，可以在Yarn之上统一部署。这些不同的计算框架统一运行在Yarn中，可以有以下的好处

计算资源按需伸缩
不用负载应用混搭，集群利用率高
共享底层存储，避免数据跨集群迁移

在这里插入图片描述
此博客借鉴于饥渴的小苹果的笔记

稷下小鲤鱼

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Spark 基础教程

Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark特点运行速度快：Spark使用先进的DAG(Directed Acyclic Graph，有向无环图)执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比Hadoop MapReduce快上百倍，基于磁盘的执行速度也能快10倍。容易使用：Spark支持使用Scala、Java、Python和R语言进行编程，简洁的API设计有助于用户轻松构建并行程序，并且可以通过Spark Shell进行交互式
复制链接

扫一扫