Spark Core概述

最新推荐文章于 2024-01-25 11:00:45 发布

挽歌亽朽年

最新推荐文章于 2024-01-25 11:00:45 发布

阅读量2.2k

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/ghf183184/article/details/104619807

版权

Spark Core是Spark的基础，包含任务调度、内存管理、错误恢复和存储系统交互。其核心API是RDD，提供了弹性分布式数据集的操作。SparkContext初始化Spark应用，DAGScheduler和TaskScheduler负责任务调度。内存优先的存储体系减少磁盘IO，提升效率。计算引擎由DAGScheduler、RDD和Executor构成，支持Standalone、Yarn、Mesos等部署模式。Spark的子框架包括Spark SQL、Spark Streaming、GraphX和MLlib，分别用于SQL处理、流计算、图计算和机器学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark Core是spark的核心与基础，实现了Spark的基本功能，包含任务调度，内存管理，错误恢复与存储系统交互等模块
Spark Core中包含了对Spark核心API——RDD API(弹性分布式数据集)的定义：RDD表示分布在多个计算节点上可以并行操作的元素集合，是spark的核心抽象

Spark Core提供Spark最基础与最核心的功能，主要包括以下功能：
(1)SparkContext：
通常而言，Driver Application的执行与输出都是通过SparkContext来完成的。在正式提交Application之前，首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、Web服务等内容，应用程序开发者只需要使用SparkContext提供的API完成功能开发。SparkContext内置的DAGScheduler负责创建Job，将DAG中的RDD划分到不同的Stage，提交Stage等功能。内置的TaskScheduler负责资源的申请，任务的提交及请求集群对任务的调度等工作。
(2)存储体系：
Spark优先考虑使用各节点的内存作为存储，当内存不足时才会考虑使用磁盘，这极大地减少了磁盘IO，提升了任务执行的效率，使得Spark适用于实时计算、流式计算等场景。此外，Spark还提供了以内存为中心的高容错的分布式文件系统Tachyon供用户进行选择。Tachyon能够为Spark提供可靠的内存级的文件共享服务。
(3)计算引擎：
计算引擎由SparkContext中的DAGScheduler、RDD以及具体节点上的Executor负责执行的Map和Reduce任务组成。DAGScheduler和RDD虽然位于SparkContext内部&#x

最低0.47元/天解锁文章