Spark存储分析 - RDD存储调用与数据读写过程

最新推荐文章于 2024-01-04 17:15:32 发布

AlferWei

最新推荐文章于 2024-01-04 17:15:32 发布

阅读量2.1k

点赞数 1

分类专栏： Spark Spark专栏

本文链接：https://blog.csdn.net/OiteBody/article/details/80376774

版权

通过之前章节，我们了解到RDD包含多个partition，每个Partition对应一个数据块Block，那么每个RDD中包含一个或多个数据块Block，每个Block拥有唯一的BlockId，对应数据块编号规则为："rdd_" + rddId + "_" + splitIndex，其中splitIndex为该数据块对应Partition的序列号。

RDD存储调用

在存储级别一章中，我们知道在persist方法中并没有发生数据存储操作动作，实际发生数据操作是在任务运行过程中，RDD调用iterator方法时发生的。

  final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
    if (storageLevel != StorageLevel.NONE) {
      // 如果存在存储级别，尝试读取内存的数据进行迭代计算
      SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)
    } else {
      // 如果不存在存储级别，则直接读取数据进行迭代计算或读取检查点结果进行迭代计算
      computeOrReadCheckpoint(split, context)
    }
  }

getOrCompute方法是存储逻辑的核心，代码如下：

def getOrCompute[T](
  rdd: RDD[T],
  partition: Partition,
  context: TaskContext,
  storageLevel: Storag

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AlferWei

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Spark基础】-- RDD、DataFrame 和 Dataset 的对比

欢迎来到我的博客，一起探索代码里的世界！

11-29

948

DataFrame 支持从最流行的格式中读取数据，包括 JSON 文件、Parquet 文件、Hive 表。它可以从本地文件系统、分布式文件系统（HDFS）、云存储（S3）和通过JDBC连接的外部关系数据库系统中读取数据。此外，通过 Spark SQL 的外部数据源 API，DataFrame 可以扩展以支持任何第三方数据格式或来源。现有的第三方扩展已经包括 Avro、CSV、ElasticSearch 和 Cassandra。

理解Spark-RDD共享变量 --- Shared Variables

杨鑫newlife的专栏

04-26

778

通常，当在远程集群节点上执行传递给Spark操作（例如map或reduce）的函数时，它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机，并且远程计算机上的变量的更新不会传播回驱动程序。支持跨任务的通用，读写共享变量效率低下。但是，Spark确实为两种常见的使用模式提供了两种有限类型的共享变量：广播变量和累加器。 1.广播变量-Broadcast Vari...

1 条评论您还未登录，请先登录后发表或查看评论

Spark的数据存储目录HDFS

wuzd的专栏

05-22

2152

Spark主要在内存中运算，最终的运算结果可以通过Hive存入到Mysql（MariaDB）和HDFS系统的。 1.spark和Hive集成， 2.通过Spark来建表，和插入数据， 3.在DB和DHFS中查看插入的数据。一、项目环境 Linux:centos7 JDK: java version 1.8 Python：3.8 Spark：spark-3.2.1 Hadoop：2.7.3 Hive:2.1.1 MariaDB:5.5.64...

spark 数据存储

03-25

297

格式类型类型格式 parquet orc csv

Spark的数据存储

读读书，敲敲代码，写写博客，思考思考人生。

05-16

864

Spark数据存储的核心是弹性分布式数据集（RDD）。RDD可以被抽象地理解为一个大的数组（Array），但是这个数组是分布在集群上的。逻辑上RDD的每个分区叫一个Partition。在Spark的执行过程中，RDD经历了一个个的Transformation算子后，最后通过Action算子进行触发操作。逻辑上每经历一次变换，就会将RDD转换成为一个新的RDD，RDD之间通过Lineage产

Spark整理：RDD中是否保存数据

weixin_38602383的博客

12-05

3145

根据编写Spark任务的代码来看，很直观的感觉是RDD就是一个只读的数据，例如 rdd.foreach(println)。但是不是， RDD其实不存储真是的数据，只存储数据的获取的方法，以及分区的方法，还有就是数据的类型。百闻不如一见，下面看看RDD的源码： ![在这里插入图片描述](https://img-blog.csdnimg.cn/b66b14c586ff45c1ac9eb347734334a5.png?x-oss-process=image/watermark,type_d3F5LXplbm

【Spark】Spark 存储原理--读数据过程

w1992wishes的博客

03-22

1336

本篇结构：读取数据块过程内存读取磁盘读取一、读取数据块过程 BlockManager 的 get 方法是读数据的入口点，有本地读取和远程读取两个分叉口。本地读取使用 getLocalValues 方法，根据存储级别的不同，使用 MemoryStore.getValues 或者 DiskStore.getBytes 读取数据。远程读取使用 getRemoteValues 方法，调用远程...

Spark中的RDD数据模型

m0_45847655的博客

10-05

934

Spark中的RDD数据模型

SparkRDD之——RDD概述

tyh1579152915的博客

05-18

1430

1、什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ①弹性： ⚫存储的弹性：内存与磁盘的自动切换，Spark优先把数据放到内存中，如果内存放不下，就会放到磁盘里面，程序进行自动的存储切换。 ⚫容错的弹性：数据丢失可以自动恢复，在RDD进行转换和动作的时候，会形成RDD的Lineage依赖链即血统，当某一个RDD失效的时候

读懂Spark存储系统

石榴姐yyds

08-01

1950

Spark 存储系统用于存储 3 个方面的数据，分别是 RDD 缓存、Shuffle 中间文件、广播变量。我们一个一个来说。 RDD 缓存指的是将 RDD 以缓存的形式物化到内存或磁盘的过程。对于一些计算成本和访问频率都比较高的 RDD 来说，缓存有两个好处：一是通过截断 DAG，可以降低失败重试的计算开销；二是通过对缓存内容的访问，可以有效减少从头计算的次数，从整体上提升作业端到端的执行性能。而要说起 Shuffle 中间文件，我们就不得不提 Shuffle 这个话题。在很多场景中，Shuffle

Spark内核解析-数据存储5（六）

最新发布

大数据知识梳理

01-04

1340

Spark内核解析-数据存储

【大数据实战项目三】Spark数据读取、处理以及保存

lys_828的博客

11-08

5871

Spark数据读取、处理以及保存手动反爬虫，禁止转载：原博地址 https://blog.csdn.net/lys_828/article/details/121204749（CSDN博主：Be_melting）知识梳理不易，请尊重劳动成果，文章仅发布在CSDN网站上，在其他网站看到该博文均属于未经作者授权的恶意爬取信息 ...

Spark的存储分析过程（一）

杨杨的博客

10-19

968

在我们的Spark的存储当中有如下的类是起到至关重要的重要的 1，BlockManager：运行在每个节点(driver和executors)上的管理器,它提供用于将本地和远程的块放入和取回到各种存储(内存,磁盘和堆外)的接口，只有调用了initialize()方法之后这个对象才有效如果这个BlockManager运行在我们的Driver上，那么这个BlockManager主要是负责管理整个J

Spark执行流程详解

qq_42456324的博客

04-29

4577

1、在命令行执行提交命令时，在spark-submit脚本中，调用了SparkSubmit类中的mainMethod.invoke方法，这个类通过反射，调用我们自定义的类。 2、我们自定义类中的main方法开始执行，初始化了SparkConf和SparkContext，在SparkContext对象被初始化的时候，构造出来DAGScheduler和TaskScheduler。 3、Driver端会对我们的代码进行解析，根据算子记录rdd之间的依赖关系，生成DAG有向无环图。当程序触发action..

spark的数据读取与保存

andy的博客

11-30

2228

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS以及数据库。 1.Text文件 2.Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中，可以调用sequenceFile[keyClass, valueClass](path)。 .

【SparkSQL】数据的加载和保存、项目实战

weixin_43923463的博客

09-09

734

RDD读取数据

zhouzhuo_CSUFT的博客

06-07

2277

文件读取scala> val lines = sc.textFile("README.md")scala> lines.collect()//显示并行化读取scala> var lines = sc.parallelize(List("i love you"))scala> lines.collect()coalesce() /repartition()调整分区val rd...

SparkCore系列-8、RDD 读写外部数据源

不积跬步无以至千里，不积小流无以成江河

07-29

408

SparkCore系列-8、RDD 读写外部数据源

Spark-RDD-Scala 算子操作数据源分析

"data01.txt 是一个用于 Spark RDD Scala 算子操作的示例数据文件，包含多行数据，每行数据由四部分组成：姓名、技能领域、在该领域的评分（可能是技能掌握程度）和未知字段。数据涉及多个计算机科学和技术主题，如...