（1）Spark运行架构核心概念简单理解

有何不可~

已于 2022-02-27 23:20:54 修改

阅读量177

点赞数

分类专栏： Spark 文章标签： spark 架构 big data

于 2022-02-17 16:51:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41123269/article/details/122986427

版权

Spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

运行架构

Spark框架的核心是一个计算引擎，它采用了标准 master-slave （主从）的结构。
Driver 是master，负责管理整个集群中的作业任务调度，驱使整个应用运行起来的程序。
Executor 则是 slave，负责实际执行任务。
如图所示：
在这里插入图片描述

核心概念

Executor与Core

在提交应用时，可以提供参数指定计算节点的个数，以及对应的资源。这里的资源一般指的是工作节点Executor的内存大小和使用的虚拟CPU核（Core）数量。

应用程序相关启动参数如下：
–num-executors 配置Executor的数量
–executor-memory 配置每个Executor的内存大小
–executor-cores 配置每个Executor的虚拟CPU core数量

并行度（Parallelism）

整个集群并行执行任务的数量称之为并行度。

有向无环图（DAG）

在这里插入图片描述
由各任务依赖关系组成的，不闭环的抽象模型。（比如A方法用到了B方法，那么A依赖B,所以B要先执行）
作用就是任务调度（先执行B任务再执行A任务…）

提交流程

Spark应用程序提交到Yarn环境中执行的时候，一般会有两种部署执行的方式：Client和Cluster。
两种模式，主要区别在于：Driver程序的运行节点。
Driver程序的运行节点在集群内就是 Cluster模式
Driver程序的运行节点在集群外就是 Client模式

核心编程

Spark计算框架为了能够对数据进行高并发和高吞吐的处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：
RDD : 弹性分布式数据集
累加器：分布式共享只写变量
广播变量：分布式共享只读变量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（1）Spark运行架构核心概念简单理解

运行架构Spark框架的核心是一个计算引擎，它采用了标准 master-slave （主从）的结构。Driver 是master，负责管理整个集群中的作业任务调度，驱使整个应用运行起来的程序。Executor 则是 slave，负责实际执行任务。如图所示：核心概念Executor与Core在提交应用时，可以提供参数指定计算节点的个数，以及对应的资源。这里的资源一般指的是工作节点Executor的内存大小和使用的虚拟CPU核（Core）数量。应用程序相关启动参数如下：–num-execut
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。