Spark设计理念与基本架构学习

最新推荐文章于 2023-03-10 11:03:20 发布

shmily‘’

最新推荐文章于 2023-03-10 11:03:20 发布

阅读量735

点赞数

文章标签： Spark

本文链接：https://blog.csdn.net/weixin_41074929/article/details/82890939

版权

《深入理解Spark核心思想与源码分析》学习

一、Spark模块设计

Spark模块包括Spark Core，Spark SQL, Spark Streaming， GraphX， MLlib。
其中，Spark Core是Spark的核心功能实现，包括SparkContext的初始化，部署模式，存储体系，计算引擎，任务提交与执行；
Spark SQL提供关系型数据库SQL处理能力；Spark Streaming提供流式计算处理能力；GraphX提供图计算能力；MLlib提供机器学习相关算法实现。

Spark的核心功能由Spark Core提供，如下：
SparkContext：在编写Spark程序时，首先应对SparkContext进行初始化，我们编写的 Driver Application的执行与输出都是通过SparkContext来实现。SparkContext中的DAGScheduler负责Job的创建，将DAG中的RDD划分到不同的Stage，提交Stage等，TaskScheduler中的Schedulerbackend负责资源的申请分配与任务调度。
存储体系：Spark是基于内存的，优先选择各节点的内存进行存储，当内存不够用时，才会考虑使用磁盘存储，尽可能减少了磁盘I/O操作，提升了效率，这使得Spark适用于实时计算、流式计算的场景。
计算引擎：计算引擎由SparkContext中的DAGScheduler、RDD和具体节点上的Executor进程负责执行的Map和Reduce任务组成。
部署模式：提供了Standalone模式的部署实现，支持Yarn等分布式资源管理系统，这主要解决单节

最低0.47元/天解锁文章

shmily‘’

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark设计理念与基本架构学习

《深入理解Spark核心思想与源码分析》学习一、Spark模块设计Spark模块包括Spark Core，Spark SQL, Spark Streaming， GraphX， MLlib。其中，Spark Core是Spark的核心功能实现，包括SparkContext的初始化，部署模式，存储体系，计算引擎，任务提交与执行；Spark SQL提供关系型数据库SQL处理能力；Spark S...
复制链接

扫一扫