spark源码阅读——3. cache和persist

最新推荐文章于 2022-03-03 15:25:04 发布

ant_yi

最新推荐文章于 2022-03-03 15:25:04 发布

阅读量403

点赞数 1

分类专栏： spark（scala）文章标签： spark

本文链接：https://blog.csdn.net/weixin_42490528/article/details/90384082

版权

spark（scala）专栏收录该内容

48 篇文章 3 订阅

订阅专栏

缓存策略 cache和persist

点进去cache，可以看到它调用了persist()，没有给参数，

也就是默认的缓存级别，MEMORY_ONLY

存储块block和partition关系

rdd的运算是基于分区partition的，partition是逻辑上的概念，

block是物理上的数据实体

一个rdd的partition就对应一个storage模块的block

缓存实现的原理

DiskStore磁盘存储和MemoryStore内存存储

DiskStore磁盘存储：

spark会在磁盘上创建spark文件夹，命名为（spark-local-x年x月x日时分秒-随机数）

block块都会存在这里，然后把block id映射成相应的文件路径，就可以存取文件了

MemoryStore内存存储：

更简单，使用hashmap管理block就行了，block id作为key，

MemoryEntry为value

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ant_yi

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark 持久化（cache和persist的区别）

主要分享大数据相关的知识，如Spark、Hudi

06-20

2万+

转载请务必注明原创地址为：https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据......

循序渐进大数据组件之--Spark中cache和persist的区别

Alex的博客

12-29

545

1.首先解释一下这两个方法的作用：为spark做持久化，cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓

参与评论您还未登录，请先登录后发表或查看评论

persist和cache原理和使用

thu16kevin的博客

07-17

655

persist和cache原理和使用 // org.apache.spark.rdd/rdd.scala def cache(): this.type = persist() def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) cache基于persist实现，本文重点对persist进行研究 1.persist原理 1.1 persist初衷 Spark基于内存进行计算，不会缓存中间结果，如果计算中多次引用同一个RDD，那么每一次对该

cache和persist的区别

秋雨ヾ的博客

05-28

1160

RDD的cache和persist的区别 cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间。在使用中一直使用RDD.cache()，系统的学习之后发现还有一个与cache功能类似看起来冗余的persist 点进去之后发现cache()是persist()的特例，persist可以指定一个StorageLevel。StorageLevel的列表可以在StorageLevel 伴生单例对象中找到： cache的源码： /** Pers

spark-cache的源码分析

ZH519080的博客

10-26

323

private def persist(newLevel: StorageLevel, allowOverride: Boolean): this.type = { 。。。。。。 if (storageLevel == StorageLevel.NONE) { sc.cleaner.foreach(_.registerRDDForCleanup(this)) //清理缓存 s...

Spark之 cache()和persist()

SuperBoy_Liang的博客

07-23

330

× Spark之cache()和persist() SuperBoy_Liang RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，，然后再针对该R...

cache和persist区别

weixin_39950222的博客

09-20

1695

cache()是persist()的特例，persist可以指定一个StorageLevel(缓存级别) cache的缓存级别是memory_only 区别就是cache默认是在内存中存储的，而persist可以设置存储的级别：如何选择一种最合适的持久化策略默认情况下，性能最高的当然是MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。...

每次进步一点点——spark中cache和persist的区别

热门推荐

housir的专栏

09-09

4万+

昨天面试被问到了cache和persist区别，当时只记得是其中一个调用了另一个，但没有回答出二者的不同，所以回来后重新看了源码，算是弄清楚它们的区别了。cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间。

Spark中的cache和persist

Mr.Phoebe的专栏

02-08

5792

Spark中cache和persist的作用以及存储级别前言 Spark开发高性能的大数据计算作业并不是那么简单。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。有一些代码开发基本的原则，避免创建重复的RDD，尽可能复用同一个RDD，如下...

SparkRDD缓存机制（cache,persist）检查点机制（容错机制）：Checkpoint

徐磊的博客

02-04

1094

目录 RDD缓存（缓存算子都是延迟算子，都需要执行算子激活）一、persist 二、cache 三、persist和cache的缺点：注意事项：四、persist和cache的不同点：相同点：五、Checkpoint 5.1、使用Checkpoint的必要性 5.2、Persist和Checkpoint使用场景 5.3、Checkpoint使用方法 ...

Spark core中的cache、persist区别，以及缓存级别详解

05-23

3846

概述本次我们将学习Spark core中的cache操作以及和 persist的区别。首先大家可能想到的是cache到底是什么呢？他有什么作用呢？我们可以带着这两个问题进行下面的学习。本文结构： 1. cache的产生背景 2. cache的作用 3. 源码解析cache于persist的区别，以及缓存级别详解 1 cache的产生背景我们先做一个简单的测试读取一个本地文件做一...

Cache与persist区别

Q1472862538的博客

03-22

749

Cache底层调用的是persist方法，存储等级为memory only Persist与Cache的主要区别是persist可自定义存储级别StorageLevel。Cache只使用memory only。 MEMORY_ONLY：只存在内存中; DISK_ONLY：只存在磁盘中； MYMORY_AND_DISK：先存在内存中，内存不够的话存入到磁盘中； OFF_HEAP：存在堆外内存中；总...

spark2.3源码分析之RDD的persist流程

lzf的博客

07-31

920

概述当根据存储级别缓存RDD时，其实是将RDD数据存储到BlockManager的memoryStore和diskStore。memoryStore最终是通过调用UnifiedMemoryManager#acquireStorageMemory()方法分配storage memory，所以缓存RDD到内存使用的是storage memory的内存。 cache()方法时最终调用的是persi...

Spark源码之存储体系简介及缓存cache源码流程图

ooeeerrtt的博客

01-13

450

一、Spark存储系统 Spark存储系统，主要可以分为以下四个部分：块管理，块传输，磁盘存储，内存存储。 1、块管理 1.1 BlcokManagerMaster 存在于driver端。在创建SparkEnv的时候创建。 BlockManagerMaster主要用于对BlockManager进行统一的管理，主要负责发送消息。 1.2 BlockManager 即存在于driver端也存在于executor端。在创建Spa...

spark中的cache()、persist()和checkpoint()的区别

qq_56870570的博客

03-03

6491

首先，这三者都是做RDD持久化的，cache()和persist()是将数据缓存在内存中，checkpoint()是将数据做物理存储的（本地磁盘或Hdfs上）。其次，缓存机制里的cache和persist都是用于将一个RDD进行缓存，区别就是：cache()是persisit()的一种简化方式，cache()的底层就是调用的persist()的无参版本，同时就是调用persist(MEMORY_ONLY)将数据持久化到内存中。如果需要从内存中清除缓存，那么可以使用unpersist()方法。 ...

RDD中cache和persist的区别

coco_ethan的专栏

06-19

1207

转载自：http://www.ithao123.cn/content-6053935.html [摘要：经过视察RDD.scala源代码便可晓得cache战persist的差别： def persist (newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE newLevel !=

cach、persist、checkpoint的区别

小黑的博客

05-16

891

cache与persist的区别 cache 底层调用的是 persist 方法，存储等级为: memory only，persist 的默认存储级别也是 memory only，persist 与 cache 的主要区别是 persist 可以自定义存储级别。哪些 RDD 需要 cache ？会被重复使用的(但是)不能太大的RDD需要cache，cache 只使用 memory。 persis...

Spark存储机制源码剖析

不清不慎的博客

10-02

955

一、Shuffle结果的写入和读取通过之前的文章Spark源码解读之Shuffle原理剖析与源码分析我们知道，一个Shuffle操作被DAGScheduler划分为两个stage，第一个stage是ShuffleMapTask，第二个是ResultTask。ShuffleMapTask会产生临时计算结果，这些数据会被ResultTask作为输入而读取。那么ShuffleMapTask的计算结果...

Spark 中cache和persist详解

weixin_47688331的博客

08-14

2240

cache cache: 缓存,可以将数据缓存到内存或持久化到磁盘[executor所在的磁盘] 。 cache和persist严格来说不是transformation，也不是action，因为没有生成新的RDD，只是标记了当前RDD要cache或persist。 cache和persist是lazy的，当第一次遇到Action算子的时侯才会进行缓存或持久化,以后再触发Action会读取、复用缓存的RDD的数据再进行操作。 cache底层调用了persist方法； def persist():

分别简述Spark中的缓存机制 (cache和persist) 与checkpoint机制，并指出两者的区别与联系,以及Spark如何实现容错机制?