Spark原理----术语

最新推荐文章于 2022-08-19 14:13:53 发布

hailunw

最新推荐文章于 2022-08-19 14:13:53 发布

阅读量121

点赞数

分类专栏： # 分布式理论文章标签： spark scala 大数据

本文链接：https://blog.csdn.net/hailunw/article/details/118266114

版权

分布式理论专栏收录该内容

29 篇文章 1 订阅

订阅专栏

内核术语：
Application：应用，就是程序员编写的spark代码。
Driver：驱动，就是用来执行main方法的JVM进程，一面会执行一些driver端的代码，如创建sparkContext，设置应用名，设置日志级别。
SparkContext：上下文，用来和clustermanager通信的，并进行资源的申请，任务的分配和监控。
Clustermanager：集群管理器，对于standalone模式就是Master，对于yarn模式就是ResourceManager/ApplicationManager，在集群上做统一资源管理的进程。
Worker：工作节点，是拥有CPU/内存资源的机器，是真正干活的节点。
Executor：运行在Worker中的JVM进程。
RDD：弹性分布式数据集。
DAG，有向无环图，在spark中指代spark程序任务的流程图。DAG的开始是从创建RDD开始，DAG的结束是到Action（比如saveAsTextFile）结束。有几个action操作就有几个DAG。
Job：作业，按照DAG进行执行就形成了job。
Stage，指的是DAG中相互依赖的几个阶段。