大数据系列：Spark的工作原理及架构

最新推荐文章于 2022-12-08 13:15:23 发布

BAO7988

最新推荐文章于 2022-12-08 13:15:23 发布

阅读量543

点赞数

分类专栏：大数据文章标签：大数据 spark

本文链接：https://blog.csdn.net/BAO7988/article/details/103405784

版权

本文深入探讨Apache Spark的运行时架构，包括SparkContext、Spark Shell、Spark Application、任务（Task）、作业（Job）和阶段（Stage）。介绍了驱动程序（Driver）、集群管理器和执行器（Executor）的角色，以及Spark-WebUI的功能，帮助理解Spark如何处理和分析大量数据。

摘要由CSDN通过智能技术生成

大数据系列：Spark的工作原理及架构

介绍

本Apache Spark教程将说明Apache Spark的运行时架构以及主要的Spark术语，例如Apache SparkContext，Spark shell，Apache Spark应用程序，Spark中的任务（Task），作业（job）和阶段（stage）。

此外，我们还将学习Spark运行时体系结构的组件，例如Spark driver，集群管理器（cluster manager）和Spark executors。最后，我们将看到Apache Spark如何使用这些组件工作。

Apache Spark的工作原理–运行时Spark架构

在这里，我们将学习Apache Spark的工作原理。在Apache Spark中，中央协调器称为driver。当您在spark中输入代码时，驱动程序（driver）中的SparkContext将在我们调用Action时创建作业（job）。该作业（job）提交给DAG Scheduler，DAG Scheduler创建操作员图（operator graph），然后将其提交给Task Scheduler。任务计划程序通过集群管理器（cluster manager）启动任务。因此，借助集群管理器，Spark Application在一组计算机上启动。