Spark简介及运行流程图文解说

最新推荐文章于 2025-04-06 10:06:59 发布

咸鱼出击

最新推荐文章于 2025-04-06 10:06:59 发布

阅读量3.2k

点赞数 3

本文链接：https://blog.csdn.net/weixin_42163700/article/details/80746445

版权

本文介绍了Apache Spark的大数据处理框架，强调了其速度优势和主要组件，如Spark Core、Spark SQL和Spark Streaming。文章详细阐述了Spark的运行流程，包括Driver、Executor、Cluster Manager的角色，以及Job、Stage、Task的调度过程。此外，还提到了Spark的资源管理器类型（Standalone、Mesos、Yarn）以及Application的运行特点，如Task的数据本地性和推测执行优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

初识Spark的朋友，下面是我汇总后的Spark总结和自己整合的一张流程图，希望可以帮助到你，也可以给我提出建议，一同进步

1.认知Spark：

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。据官网上说Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，将应用在磁盘上的运行速度提升10倍。

1.1 为啥能比MR快这么多倍？

Spark的job中间输出可以保存在内存,无需读写HDFS，先进的DAG调度机制

1.2 三块入门Spark基石