Spark核心RDD：计算函数compute

最新推荐文章于 2024-11-15 20:13:07 发布

Javis486

最新推荐文章于 2024-11-15 20:13:07 发布

阅读量1w

点赞数 8

分类专栏： Spark 文章标签： compute iterator

本文链接：https://blog.csdn.net/jiangpeng59/article/details/53213694

版权

RDD的计算是惰性的，一系列转换操作只有在遇到动作操作是才会去计算数据，而分区作为数据计算的基本单位。在计算链中，无论一个RDD有多么复杂，其最终都会调用内部的compute函数来计算一个分区的数据。

1.compute方法

RDD抽象类要求其所有子类都必须实现compute方法，该方法介绍的参数之一是一个Partition对象，目的是计算该分区中的数据。以 MapPartitionsRDD类为例，其compute方法如下

 override def compute(split: Partition, context: TaskContext): Iterator[U] =
    f(context, split.index, firstParent[T].iterator(split, context))

MapPartitionsRDD类的compute方法调用当前RDD内的第一个父RDD的iterator方法，该方法的目的是拉取父RDD对应分区的数据，iterator方法会返回一个迭代器对象，迭代器内部存储的每一个元素即父RDD对应分区内的数据记录。

RDD的粗粒度转换体现在map方法上，f函数是map转换操作函数，RDD会对一个分区(而不是一条一条数据记录)内的数据执行单的的操作f，最终返回包含所有经过转换过的数据记录的新迭代器，即新的分区。

其他RDD子类的compute方法与之类似，在需要用用到父RDD的分区数据时，就会调用iterator方法，然后根据需求在得到的数据上执行相应的操作。换句话说，compute函数负责的是父RDD分区数据到子RDD分区数据的变换逻辑。

2.iterator方法

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Javis486

关注关注

8
点赞
踩
21

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Spark]自定义RDD的计算函数

I have a adream

12-27

954

MyRDDTest.scala package org.apache.spark.myrdd { import org.apache.spark.{Partition, SparkContext, TaskContext} import scala.reflect.ClassTag import org.apache.spark.rdd._ private[myrdd] cl...

Spark计算模型RDD, RDD编程实战, RDD函数详解!

weixin_42886893的博客

10-27

623

什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。 Dataset：一个数据集合，用于存放数据的。 Distributed：RDD中的数据是分布式存储的，可用于分布式计算。 Resilient：RDD

3 条评论您还未登录，请先登录后发表或查看评论

Spark RDD算子介绍

weixin_33966365的博客

02-11

224

Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。 Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。 2. Spark-Shell spa...

spark 2.1 RDD compute process

houzhizhen的专栏

05-17

405

iterator /** * Internal method to this RDD; will read from cache if applicable, or otherwise compute it. * This should ''not'' be called by users directly, but is available for implementors of cu

Spark RDD深度解析-RDD计算流程

weixin_33989058的博客

09-07

532

Spark RDD深度解析-RDD计算流程摘要 RDD（Resilient Distributed Datasets）是Spark的核心数据结构，所有数据计算操作均基于该结构进行，包括Spark sql 、Spark Streaming。理解RDD有助于了解分布式计算引擎的基本架构，更好地使用Spark进行批处理与流计算。本文以Spark2.0源代码为主，对RDD的生成、计算流程、加载顺序等...

Spark RDD 的 compute 方法

最新发布

z1941563559的博客

11-15

1631

computecompute是一个抽象方法，由具体的 RDD 子类（如HadoopRDD等）实现。：表示 RDD 的一个逻辑分区。：提供了当前任务的上下文信息，如任务 ID、分区 ID 等。：返回一个懒加载的迭代器，用于访问分区内的数据。computecompute是 RDD 中的关键方法，定义了如何读取和处理分区数据。惰性求值与迭代器：通过返回迭代器，compute实现了流式处理和内存优化。扩展性：不同类型的 RDD 通过重写compute，实现适合自己场景的数据读取和计算逻辑。

Spark计算模型-RDD

woaini886353的博客

05-10

996

什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 RDD的属性一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都...

Spark RDD详解：原理、属性和应用

Spark 中 RDD 的计算是以分片为单位的，每个 RDD 都会实现 compute 函数以达到这个目的。compute 函数会对迭代器进行复合，不需要保存每次计算的结果。一个 function 作用在一个分片上。 3. RDD 之间的依赖关系。RDD...

Spark Core：理解RDD：弹性分布式数据集与操作原理

Spark Core中的核心概念是RDD（Resilient Distributed Dataset，弹性分布式数据集）。RDD是Spark编程模型的基础，它是一种抽象数据结构，代表了一个不可变、可分区且元素可以并行计算的集合。它在设计上具有以下关键...

Spark RDD 复杂算子

Claroja

10-28

322

aggregateByKey 是Transformation reduceByKey 是Transformation filter 是Transformation flatMap 是Transformation map 是ransformation mapPartition 是ransformation mapPartiti...

Spark计算模型RDD

weixin_30851409的博客

07-26

175

RDD弹性分布式数据集 RDD概述　　RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。　　...

Spark算子RDD介绍

不以物喜的博客

09-08

199

1 RDD概述 1.1 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 1.2 RDD的属性 1）一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处

textFile构建RDD的分区及compute计算策略

大数据星球-浪尖

12-30

1419

1,textFileA),第一点，就是输入格式，key，value类型及并行度的意义。def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() //输入文件的格式TextInputFormat，key的类型L

rdd分片 spark_spark计算模型RDD

weixin_39840729的博客

12-23

124

RDD介绍1.RDD概念以及特性RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。(A Resilie...

什么是RDD以及RDD的五大基本属性

Z_Data的博客

02-23

4074

Spark 核心 RDD 剖析（下）

songjifei的专栏

09-21

625

上文Spark 核心 RDD 剖析（上）介绍了 RDD 两个重要要素：partition 和 partitioner。这篇文章将介绍剩余的部分，即 compute func、dependency、preferedLocation compute func 在前一篇文章中提到，当调用 RDD#iterator 方法无法从缓存或 checkpoint 中获取指定 partition 的迭代器时，就

Spark RDD概念学习系列之RDD的checkpoint（九）

weixin_33979745的博客

11-14

148

RDD的检查点　　首先，要清楚。为什么spark要引入检查点机制?引入RDD的检查点？　答：如果缓存丢失了，则需要重新计算。如果计算特别复杂或者计算耗时特别多，那么缓存丢失对于整个Job的影响是不容忽视的。为了避免缓存丢失重新计算带来的开销，Spark又引入检查点机制。 RDD的缓存能够在第一次计算完成后，将计算结果保存到内...

RDD调用机制、数据流在RDD中的流通

qq_41635401的博客

11-16

1080

第一个调用iterator的地方现在知道compute方法的入口方法时iterator方法，即整个调用链是从iterator方法开始的，既然rdd的处理调用是一个向上迭代的过程，那么第一个调用iterator的地方在哪里呢？RDD算子最终会被转化为shuffle map task和result task，并发送到executor执行。而这个地方就在ShuffleMapTask的runTask方法中：进入write方法会在传入的rdd基础上调用RDD的iterator方法。进入该方法：

Spark中的RDD函数【基本函数、分区函数、重分区函数、聚合函数、关联函数】详解

shuyv的博客

08-26

2992

文章目录基本函数分区函数基本函数 RDD中的map、filter、flatMap以及foreach等函数作为最基本的函数，都是RDD中的每个元素进行操作，将元素传递到函数中进行转换。函数名用法解释 map 函数 map(f:T=>U) : RDD[T]=>RDD[U] 表示将RDD经由某一函数f后，转变成另一个RDD。 flatMap 函数 flatMap(f:T=>Seq[U]) : RDD[T]=>RDD[U]) 表示将RDD由某一函数f后，转变为一