Spark中的持久化（缓冲）以及检查点机制

大数据盼盼

于 2023-05-22 16:26:01 发布

阅读量244

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_66455465/article/details/130809421

版权

一、持久化

跨操作在内存中持久化（或缓冲）数据。当持久化RDD时，将每个节点的计算的所有分区存储在内存中，为了是数据的重用。再次调用的时候不需要重新计算，速度更快。

可以使用persist（）和cache（）两种方方将RDD标记为持久化。第一次动作中计算时，它将保存在节点的内存中。Spark的缓冲是容错的，当RDD分区丢失的时候，可以使用最初创建缓冲位置调用重新计算。

cache是调用了persist的无参缓冲方法。默认使用的缓冲在内存中，如果想要使用指定的持久化策略，可以使用persist（StoreageLevle的对象）来实现

二、RDD检查点

1.通过将数据写入到HDFS中做检查点，是多副本可靠存储，可以减少数据开销，提高容错性

2.当DAG的lineage过长，如果重算，则开销太大，此时可以用检查点，或者在宽依赖上面可以Checkpoint，减少了shuffle，收益更大。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据盼盼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark 持久化机制

weixin_30275415的博客

08-17

170

spark的持久化机制做的相对隐晦一些，没有一个显示的调用入口。首先通过rdd.persist(newLevel: StorageLevel)对此rdd的StorageLevel进行赋值，同checkpoint一样，本身没有进行之久化操作。真正进行持久化操作实在之后的第一个action 中通过iterator方法进行调用： final def iterator(split:...

Spark RDD持久化机制

梁辰兴的博客

06-06

805

Spark会自动监视每个节点上的缓存使用情况，并以最近最少使用的方式从缓存中删除旧的分区数据。从上述代码可以看出，cache()方法调用了无参的persist()方法，两者的默认存储级别都为MEMORY_ONLY，但cache()方法不可更改存储级别，而persist()方法可以通过参数自定义存储级别。Spark中重要的功能之一是可以将某个RDD中的数据保存到内存或者磁盘中，每次需要对这个RDD进行算子操作时，可以直接从内存或磁盘中取出该RDD的持久化数据，而不需要从头计算才能得到这个RDD。

参与评论您还未登录，请先登录后发表或查看评论

Spark Core之RDD持久化机制

CyAurora的博客

08-12

412

目录一、RDD持久化原理二、RDD缓存三、RDD持久化策略四、checkpoint检查点机制五、缓存和检查点区别 5.1cache和persist⽐较 5.3什么时候使⽤cache或checkpoint 一、RDD持久化原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的...

Spark持久化详解

醉与浮的博客

11-21

1302

spark持久化详解

Spark RDD机制（持久化、依赖关系、checkpoint）

libaowenBlog的博客

08-18

914

一、RDD持久化二、RDD的依赖关系三、checkpoint机制

Spark缓冲、容错机制

qq_41166135的博客

09-27

371

一.缓冲文件太大的时候，不会全部放到内存中，实际文件大小30M，放到内存中达到90M：因为写入的文件当中存放的是二进制，而读取到内存中以后，使用Java对象序列化方式这种序列化会占用更大的空间，所以比实际大小要大实际上不会将内存全部占用，要给程序运行留下足够的内存注意： cache可以提高程序运行速度，但是如果使用一次就没必要cache，常用于反复的使用 cache既不...

Spark Core【Spark内存管理机制】

weixin_43923463的博客

09-02

190

作为一个JVM 进程，Executor 的内存管理建立在JVM的内存管理之上，Spark对 JVM的堆内（On-heap）空间进行了更为详细的分配，以充分利用内存。同时，Spark引入了堆外（Off-heap）内存，使之可以直接在工作节点的系统内存中开辟空间，进一步优化了内存的使用。堆内内存受到JVM统一管理，堆外内存是直接向操作系统进行内存的申请和释放堆内内存的大小，由Spark应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置。Executor

【白话Flink基础理论】Flink中的容错机制——检查点CheckPoint&屏障Barrier&保存点SavePoint

橙心橙意橙续缘的博客

12-20

1211

——wirte by 橙心橙意橙续缘，前言白话系列 ———————————————————————————— 也就是我在写作时完全不考虑写作方面的约束，完全把自己学到的东西、以及理由和所思考的东西等等都用大白话诉说出来，这样能够让信息最大化的从自己脑子里输出并且输入到有需要的同学的脑中。PS：较为专业的地方还是会用专业口语诉说，大家放心！白话Flink系列 ———————————————————————————— 主要是记录本人（国内某985研究生）在Flink基础理论阶段学习的一些所学，更重要的是一

Spark

小道的博客

12-10

3644

Spark知识点

大数据面试题_Spark篇

weixin_42570840的博客

07-26

567

大数据面试题中Spark的部分

spark系列一：使用持久化机制和不使用持久化的原理及实战

cjx42518041的博客

05-20

289

rdd持久化原理： rdd可以持久化到内存，当对dd执行持久化操作时，每个节点都会将自己的操作的rdd的parition持久化到内存中，并且在之后对该rdd的反复使用中，直接使用内存缓存的partition，这样对于一个反复执...

Spark---持久化

大呱的博客

03-31

1094

Spark---持久化之缓存和检查点

spark—RDD持久化

weixin_44604159的博客

09-28

445

介绍了Cache和Persist缓存，以及CheckPoint 检查点

Spark ~ RDD 持久化

cai_and_luo的博客

01-28

154

Spark ~ RDD 持久化cache()persist() RDD 中是不存储数据的，如果一个 RDD 需要重复使用，那么需要从头再次执行来获取数据。 RDD 对象是可以重用的，但是数据无法重用。参考以下的案列，reduceRdd 和 groupRdd 都依赖于 mapRdd ，在 flatMap 中打印，发现两次调用 mapRdd 都从头再次执行了。 package org.example import org.apache.log4j.{Level, Logger} import org.apac

Spark的三种持久化

别人笑我太疯癫，我笑他人看不穿。

02-26

2674

Spark的持久化有三种，使用时应当选择最合适的哪一个 cache 使用方法如下 var sprakconf=new SparkConf().setMaster("local").setAppName("log") var sc=new SparkContext(sprakconf) var linesRdd= sc.textFile("C:\\log.txt") linesRdd.cache() cache将数据集持久化到内存，这种持久化相当与另一种叫做persis

Spark 持久化（cache和persist的区别）

热门推荐

主要分享大数据相关的知识，如Spark、Hudi

06-20

2万+

转载请务必注明原创地址为：https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据......

Spark中的RDD持久化缓存 cache()、persist()（附案例）

奇迹虎虎的博客

02-20

2663

我们可以使用缓存函数：cache()、persist() 来持久化存储某个RDDn的数据集到内存或磁盘中，方便后期复用该RDD时无需从头计算。

Spark从入门到精通第十一课： Spark中的宽窄依赖 && Spark中的Shuffle && 内存管理策略

曹利荣的博客

03-17

992

1、宽依赖和窄依赖 1、区别窄依赖：对于一个父rdd，子rdd的一个分区只依赖其一个分区。窄依赖允许在一个集群节点上以流水线的方式（pipeline）计算所有父分区。算子：map、union、map join和broadcast join。宽依赖：对于一个父rdd，子rdd的一个分区依赖其多个分区. 宽依赖需要首先计算好所有父分区数据，然后在节点之间进行...

spark 持久化机制入门

鸭梨的博客

11-20

479

持久化作原因及用途 Spark最重要的功能之一是跨操作在内存中持久化（或缓存）数据集。当您持久化RDD时，每个节点都将它计算的所有分区存储在内存中，并在该数据集（或从该数据集派生的数据集）上的其他操作中重用这些分区。这使得未来的行动更快（通常是10倍以上）。缓存是迭代算法和快速交互使用的关键工具。可以使用persist（）或cache（）方法将RDD标记为持久化。第一次在action中计算它时，它将保存在节点上的内存中。Spark的缓存是容错的——如果RDD的任何分区丢失，它将自动使用最初创建它的转换重新

spark持久化机制