RDD Pipeline 源码图解

最新推荐文章于 2022-08-17 00:00:00 发布

美伊小公主的奶爸

最新推荐文章于 2022-08-17 00:00:00 发布

阅读量1.5k

点赞数 1

分类专栏： spark 文章标签： Spark RDD 源码

本文链接：https://blog.csdn.net/cymvp/article/details/54235777

版权

在面试候选人Spark相关知识点时, 我总喜欢问这么一个问题:

如果一个源数据有1亿行, 对这个源数据分别做map()操作和flatMap()操作, 过程是下面描述的那种流程, 为什么?

1 每读1条数据, 顺次执行map()和flatMap(), 再读取下一条;

2 对1亿条数据遍历做完map()后, 然后再重新读取一遍这1亿条数据, 做flatMap()操作.

意外的是, 很多候选人能说出同一个stage的RDD变换, 是一个pipeline操作; 但是对于上面的选择题，基本都表现地非常迟疑, 很少能做出正确的选择, 并说出原因.

上面的答案1是正确的, 原因请见下面的分析.

设有这么一个连续的变换, 会经过sc.textFile() -> map() -> filter() -> mapPartitions() -> flatMap():

sc.txtFile("1.txt").map(_ + 1).filter(_ > 0).mapPartitions{
    iter => {
        dbConnection.open();
        iter.map{
            val result = _ + 2

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

美伊小公主的奶爸

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark RDD 原理及源码汇总

李孟的博客

10-17

576

文章目录一.介绍二.案例三.RDD 的核心特征和属性3.1 简介3.2 小结四.源码一.介绍 RDD 作为 Spark 对于分布式数据模型的抽象，是构建 Spark 分布式内存计算引擎的基石。很多 Spark 核心概念与核心组件，如 DAG 和调度系统都衍生自 RDD。因此，深入理解 RDD 有利于你更全面、系统地学习 Spark 的工作原理。尽管 RDD API 使用频率越来越低，绝大多数人也都已经习惯于 DataFrame 和 Dataset API，但是，无论采用哪种 API 或是哪种开发语言，你

Spark RDD算子源码解读

tanglizhe1105的博客

11-02

3452

结合spark1.5.0的RDD源码API及自己一年以来的开发经验，介绍Spark RDD算子的功能、原理及调用方式。

参与评论您还未登录，请先登录后发表或查看评论

【Spark源码】RDD阶段划分&任务划分

九筒的博客

05-11

700

工具环境 Intellij Idea 2018.03 spark3.0.0 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </d

RDD实战图解

yangshihao321的博客

01-21

541

Spark源码系列（二）RDD详解

weixin_34119545的博客

06-12

228

1、什么是RDD？上一章讲了Spark提交作业的过程，这一章我们要讲RDD。简单的讲，RDD就是Spark的input，知道input是啥吧，就是输入的数据。 RDD的全名是Resilient Distributed Dataset，意思是容错的分布式数据集，每一个RDD都会有5个特征： 1、有一个分片列表。就是能被切分，和hadoop一样的，能够切分的数据才能并行计算。 2、有一个函数...

小知识点实践——RDD 在STAGE 中计算时的PIPELINE测试

harli的专栏

03-23

641

小知识点实践——RDD 在Stage 中计算时的pipeline测试 1 分析在Stage中，以pipeline方式进行计算，计算时对分区的每一条记录是依次从头到尾（在数据获取角度存在回溯的概念，但执行上是从前到后依次计算）使用各个操作算子进来实现的。下面以一条记录计算后对应一条记录为例进行说明（可以认为是map操作，对应逻辑可以扩展到filter、flatMap等

Spark-RDD阶段划分源码解析

食鱼酱的博客

08-05

406

Spark版本2.4.5，从RDD.scala的collect函数为入口分析阶段划分流程 // --------------- 1 ----------------- def collect(): Array[T] = withScope { // 跳进这个runJob val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray) Array.concat(results: _*) } // --------.

spark源码之RDD源码分析

daxuddaai的博客

04-07

499

RDD的五大特性： 1.partitions_：partition数组 2.dependencies_:Dependency序列 3. compute：计算函数 4. Partitioner：分区器 5. Preferred Locations:存储存取每个Partition的优先位置一、dependency 在RDD中dependencies_是专门用来存储当前RDD的父dependency序列。 dependencies方法，用于获取当前RDD的所有依赖的序列，源码如下： pack

RDD依赖关系及Stage划分源码

weixin_42796403的博客

12-28

287

RDD依赖关系 1. 查看血缘关系 RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。 1）代码实现 object Lineage01 { def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称

RDD任务切分之Stage任务划分(图解和源码)

悦上心灵的博客

01-12

1181

RDD任务切分之Stage任务划分(图解和源码)

Spark学习笔记(10)——RDD阶段划分和任务划分

m0_56602092的博客

08-05

1502

一、阶段划分的概念通过前面的学习我们知道RDD转换算子从分区数据是否会重新组合的角度看可分为两类：一类是如map、mapPartitions等，一个分区的数据经过处理后仍然还在同一个分区。各个分区的数据不存在互相依赖的关系，即OneToOne依赖，因此各个分区在处理完自己的任务后就可以直接通过转换算子进入新的RDD，不需要谁等谁。而另一类转换算子如groupBy、reduceByKey等，分区数据需要重新组合（即存在shuffle操作）。各个分区的数据存在互相依赖的关系，即Shuffle依赖（宽依赖

Spark基础【RDD依赖关系--源码解析】

weixin_43923463的博客

08-17

247

主要为shuffle设计，如果存在shuffle，需要一个完整的阶段（resultStage）一分为二，前一个阶段（shuffleMapStage）用于写数据和进行数据的落盘，前一个阶段执行完成才可以进行下一个阶段，resultStage包含shuffleMapStage。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。相邻两个RDD之间的关系，称之为依赖关系，多个连续的依赖关系称之为血缘关系。...

Spark-RDD宽窄依赖、pipeline计算模式、Stage

oJueQiang123456的博客

02-26

548

一、RDD宽窄依赖以WordCount为例：窄依赖：父RDD与子RDD partition之间的关系是一对一(父partition的数据只到一个子partition)，比如：rdd1->rdd2->rdd3。父RDD与子RDD partition之间的关系是多对一。宽依赖：父RDD与子RDD partition之间的关系是一对多(父partition的数据只到...

【编程语言】PySpark 异常 AttributeError: 'PipelinedRDD' object has no attribute 'toDF'