Spark简介及运行流程图文解说

本文介绍了Apache Spark的大数据处理框架,强调了其速度优势和主要组件,如Spark Core、Spark SQL和Spark Streaming。文章详细阐述了Spark的运行流程,包括Driver、Executor、Cluster Manager的角色,以及Job、Stage、Task的调度过程。此外,还提到了Spark的资源管理器类型(Standalone、Mesos、Yarn)以及Application的运行特点,如Task的数据本地性和推测执行优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

初识Spark的朋友 ,下面是我汇总后的Spark总结和自己整合的一张流程图,希望可以帮助到你,也可以给我提出建议,一同进步大笑

1.认知Spark:

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。据官网上说Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,将应用在磁盘上的运行速度提升10倍。

1.1 为啥能比MR快这么多倍?

Spark的job中间输出可以保存在内存,无需读写HDFS,先进的DAG调度机制 

1.2  三块入门Spark基石

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值