Spark及RDD数据结构(一)(超详细)

最新推荐文章于 2024-07-08 10:05:46 发布

蜗牛杨哥

最新推荐文章于 2024-07-08 10:05:46 发布

阅读量1.3k

点赞数

分类专栏： Scala编程实战大数据架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014635374/article/details/106216238

版权

大数据架构同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

Scala编程实战

6 篇文章 1 订阅

订阅专栏

3.3.1 基本概念

3.3.2 架构设计

图 Spark中各种概念之间的相互关系

3.3.3 Spark运行基本流程

SparkContext对象代表了和一个集群的连接

3.3.4 RDD的设计与运行原

1.RDD设计背景

2.RDD概念

这一系列处理称为一个Lineage（血缘关系），即DAG拓扑排序的结果优点：惰性调用、管道化、避免同步等待、不需要保存中间结果、每次操作变得简单

图 RDD执行过程的一个实例

3.RDD特性

4. RDD之间的依赖关系

4. RDD之间的依赖关系——Shuffle操作

4. RDD之间的依赖关系——Shuffle操作

Shuffle过程不仅会产生大量网络传输开销，也会带来大量的磁盘IO开销。Spark经常被认为是基于内存的计算框架，为什么也会产生磁盘IO开销呢？对于这个问题，这里有必要做一个解释。

图 MapReduce的Shuffle过程

4. RDD之间的依赖关系——Shuffle操作

Spark经常被认为是基于内存的计算框架，为什么Shuffle过程也会产生磁盘IO开销呢？

图 Spark中的Shuffle过程

4. RDD之间的依赖关系——Shuffle操作

Spark经常被认为是基于内存的计算框架，为什么Shuffle过程也会产生磁盘IO开销呢？

图 Spark Shuffle把多个桶写入到一个文件

4. RDD之间的依赖关系——窄依赖和宽依赖

窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子

RDD的分区宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区

5.阶段的划分

5.Stage的划分

被分成三个Stage，在Stage2中，从map到union都是窄依赖，这两步操作可以形成一个流水线操作

图根据RDD分区的依赖关系划分Stage

流水线操作实例分区7通过map操作生成的分区9，可以不用等待分区8到分区10这个map操作的计算结束，而是继续进行union操作，得到分区13，这样流水线执行大大提高了计算的效率

6.RDD运行过程

图 RDD在Spark中的运行过程

图 Spark on Yarn架构

讨论：Spark和Hadoop

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark及RDD数据结构(一)(超详细)

3.3.1 基本概念3.3.2 架构设计图 Spark中各种概念之间的相互关系3.3.3 Spark运行基本流程SparkContext对象代表了和一个集群的连接3.3.4 RDD的设计与运行原...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。