Spark介绍

最新推荐文章于 2024-05-03 16:10:43 发布

狠情

最新推荐文章于 2024-05-03 16:10:43 发布

阅读量885

点赞数 21

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45309297/article/details/135648067

版权

1.1. 概念

Spark 提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据

集和数据源（批量数据或实时的流数据）的大数据处理的需求。

1.2. 核心架构

Spark Core

包含 Spark 的基本功能；尤其是定义 RDD 的 API、操作以及这两者上的动作。其他 Spark 的库都

是构建在 RDD 和 Spark Core 之上的

Spark SQL

提供通过 Apache Hive 的 SQL 变体 Hive 查询语言（HiveQL）与 Spark 进行交互的 API。每个

数据库表被当做一个 RDD，Spark SQL 查询被转换为 Spark 操作。

Spark Streaming

对实时数据流进行处理和控制。Spark Streaming 允许程序能够像普通 RDD 一样处理实时数据

Mllib

一个常用机器学习算法库，算法被实现为对 RDD 的 Spark 操作。这个库包含可扩展的学习算法，

比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX

控制图、并行图操作和计算的一组算法和工具的集合。GraphX 扩展了 RDD API，包含控制图、

创建子图、访问路径上所有顶点的操作

1.3. 核心组件

Cluster Manager- 制整个集群，监控 worker

在 standalone 模式中即为 Master 主节点，控制整个集群，监控 worker。在 YARN 模式中为资

源管理器

Worker 节点 - 负责控制计算节点

从节点，负责控制计算节点，启动 Executor 或者 Driver。

Driver ：运行 Application 的 main() 函数

Executor ：执行器，是为某个 Application 运行在 worker node 上的一个进程

1.4. SPARK 编程模型

Spark 应用程序从编写到提交、执行、输出的整个过程如图所示，图中描述的步骤如下：

1. 用户使用 SparkContext 提供的 API（常用的有 textFile、sequenceFile、runJob、stop 等）

编写 Driver application 程序。此外 SQLContext、HiveContext 及 StreamingContext 对

SparkContext 进行封装，并提供了 SQL、Hive 及流式计算相关的 API。

2. 使用SparkContext提交的用户应用程序，首先会使用BlockManager和BroadcastManager

将任务的 Hadoop 配置进行广播。然后由 DAGScheduler 将任务转换为 RDD 并组织成 DAG，

DAG 还将被划分为不同的 Stage。最后由 TaskScheduler 借助 ActorSystem 将任务提交给

集群管理器（Cluster Manager）。

3. 集群管理器（ClusterManager）给任务分配资源，即将具体任务分配到Worker上，Worker

创建 Executor 来处理任务的运行。Standalone、YARN、Mesos、EC2 等都可以作为 Spark

的集群管理器。

1.5. SPARK 计算模型

RDD 可以看做是对各种数据计算模型的统一抽象，Spark 的计算过程主要是 RDD 的迭代计算过

程。RDD 的迭代计算过程非常类似于管道。分区数量取决于 partition 数量的设定，每个分区的数

据只会在一个 Task 中计算。所有分区可以在多个机器节点的 Executor 上并行执行。

1.6. SPARK 运行流程

1. 构建 Spark Application 的运行环境，启动 SparkContext

2. SparkContext 向资源管理器（可以是 Standalone ， Mesos ， Yarn ）申请运行 Executor 资源，

并启动 StandaloneExecutorbackend ，

3. Executor 向 SparkContext 申请 Task

4. SparkContext 将应用程序分发给 Executor

5. SparkContext 构建成 DAG 图，将 DAG 图分解成 Stage 、将 Taskset 发送给 Task Scheduler ，

最后由 Task Scheduler 将 Task 发送给 Executor 运行

6. Task 在 Executor 上运行，运行完释放所有资源

1.7. SPARK RDD 流程

1. 创建 RDD 对象

2. DAGScheduler 模块介入运算，计算 RDD 之间的依赖关系，RDD 之间的依赖关系就形成了

DAG

3. 每一个 Job 被分为多个 Stage。划分 Stage 的一个主要依据是当前计算因子的输入是否是确

定的，如果是则将其分在同一个 Stage，避免多个 Stage 之间的消息传递开销

1.8. SPARK RDD

（ 1 ） RDD 的创建方式

1）从 Hadoop 文件系统（或与Hadoop兼容的其他持久化存储系统，如Hive、Cassandra、

HBase）输入（例如 HDFS）创建。

2）从父 RDD 转换得到新 RDD。

3）通过 parallelize 或 makeRDD 将单机数据创建为分布式 RDD。

（ 2 ） RDD 的两种操作算子（ 转换（Transformation）与行动（Action） ）

对于 RDD 可以有两种操作算子：转换（Transformation）与行动（Action）。

1）转换（Transformation）：Transformation操作是延迟计算的，也就是说从一个RDD转

换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触

发运算。

2）行动（Action）：Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark 系统。

关注

21
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark介绍

Spark 提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。Spark Core包含 Spark 的基本功能；尤其是定义 RDD 的 API、操作以及这两者上的动作。其他 Spark 的库都是构建在 RDD 和 Spark Core 之上的Spark SQL提供通过 Apache Hive 的 SQL 变体 Hive 查询语言（HiveQL）与 Spark 进行交互的 API。每个。
复制链接

扫一扫

博客等级

码龄5年

134
原创

855
点赞

861
收藏

587
粉丝

关注

私信

热门文章

分类专栏

java其他总结 17篇
数据库mysql 6篇
中间件 4篇
算法 5篇
框架 2篇
IDEA 8篇
设计模式 3篇
Linux 4篇
数据结构 1篇
java se总结 6篇
python

最新评论

释放锁流程源码剖析
专业的程序员: 你好大佬，我想问一个问题，node节点入队列，等到获取了锁执行完成了，释放锁，但是我没有在源码中发现node出队列的代码，那么这个已经释放了锁的node是什么时候从双向链表中去除的呢？
Semaphone应用&源码分析（二）
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
锁机制的学习
CSDN-Ada助手: 您写的《锁机制的学习》是一篇非常有价值的文章，内含丰富的知识和实用经验，使读者受益匪浅。在此，我想真心夸赞您的创作才能和专业素养，相信您的博客会更加受欢迎，并且给读者带来更多精彩内容。下一篇可能创作的博客标题为：“并发编程优化策略探讨”。
idea创建Maven报错Cannot resolve plugin org.apache.maven.plugins:maven-compiler-plugin:3.1
Virlisen: 谢谢你我这两天一直再配maven spring-boot的项目maven会报错终于找到原因了没错 "无需覆盖，自己覆盖掉就会产生这个错误。"
eclipse修改视图Navigator或者Package Explorer切换
啦啦啦349: 想请问一下为什么我搜索就只有navigator（deprecated）呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

狠情 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。