spark学习笔记2——rdd、执行过程

最新推荐文章于 2024-04-28 22:14:09 发布

玩电脑的象

最新推荐文章于 2024-04-28 22:14:09 发布

阅读量654

点赞数 1

分类专栏： spark 大数据学习笔记文章标签：大数据 spark

版权

5 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

RDD在Spark中运行，主要分为以下三步：

创建RDD对象
DAG scheduler模块介入运算，计算RDD之间的依赖关系，形成DAG
每一个Job被划分为多个stage，划分stage的一个主要依据是当前计算因子的输入是否确定，如果确定将其分在同一个stage，避免多个stage之间的消息传递开销

spark集群架构

Term（术语）	Meaning（含义）
Application	Spark 应用程序，由集群上的一个 Driver 节点和多个 Executor 节点组成。
Driver program	主运用程序，该进程运行应用的 main() 方法并且创建 SparkContext
Cluster manager	集群资源管理器（例如，Standlone Manager，Mesos，YARN）
Worker node	执行计算任务的工作节点
Executor	位于工作节点上的应用进程，负责执行计算任务并且将输出数据保存到内存或者磁盘中
Task	被发送到 Executor 中的工作单元