spark持久化（缓存）

最新推荐文章于 2024-07-06 09:25:15 发布

Alan_DM

最新推荐文章于 2024-07-06 09:25:15 发布

阅读量1.9k

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/little_nai/article/details/53584776

版权

spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1、惰性求值：
RDD转化过程都是惰性求值的。这意味着在被调用行动操作之前spark不会开始计算，spark会在内部记录下所要求执行的操作的相关信息，我们可以把每个RDD看作我们通过转化操作构建出来的、记录如何计算数据的指定列表。把数据读取到RDD的操作同样是惰性的。

2、持久化缓存
SparkRDD是惰性求值的，而有时候我们希望能够多次使用同一个RDD。如果简单地对RDD调用行动操作，Spark每次都会重算RDD以及它的所有依赖。这在迭代算法中消耗很大。
此时我们可以让spark对数据进行持久化操作。当我们让Spark持久化存储一个RDD时，计算出的RDD节点会分别保存它们所求出的RDD分区数据。如果一个有持久化数据的节点发生故障，Spark会在需要用到缓存数据时重算丢失的数据分区。我们可以把我们的数据备份到多个节点避免这种情况发生。

注意：序列化是执行上面的基础。

val result = input.map { x => x * x      result.persist(StorageLevel.DISK_ONLY)      println(result.count())
println(result.collect.mkString(","))

Spark还有一个unpersist（）方法，调用该方法可以手动把持久化RDD从缓存中移除。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Alan_DM

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark3.0入门到精通

04-10

├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 ...│ 10-[掌握]-RDD的缓存-持久化.mp4 │ 15-[了解]-外部数据源-操作JDBC-读.mp4

Spark---持久化

大呱的博客

03-31

1084

Spark---持久化之缓存和检查点

参与评论您还未登录，请先登录后发表或查看评论

Spark的三种持久化

别人笑我太疯癫，我笑他人看不穿。

02-26

2664

Spark的持久化有三种，使用时应当选择最合适的哪一个 cache 使用方法如下 var sprakconf=new SparkConf().setMaster("local").setAppName("log") var sc=new SparkContext(sprakconf) var linesRdd= sc.textFile("C:\\log.txt") linesRdd.cache() cache将数据集持久化到内存，这种持久化相当与另一种叫做persis

摸鱼大数据——Spark Core——缓存和checkpoint

最新发布

weixin_65694308的博客

07-06

1055

需求一: 统计每个关键词出现了多少次, 最终展示top10数据注意:'.', '+', '的' 都需要过滤。# 需求一: 统计每个关键词出现了多少次, 最终展示top10数据注意:'.', '+', '的' 都需要过滤。使用count算子触发。# 需求一: 统计每个关键词出现了多少次, 最终展示top10数据注意:'.', '+', '的' 都需要过滤。.filter(lambda word: word not in ('.', '+', '的')) \。

Spark设计原理(二)——数据缓存机制

杜海的博客

09-22

754

所以原数据有9条记录，而shuffle write有8条记录，是因为先缓存了，再combine()，combine()后少了一条记录。如果map()操作后，先combine()的话，则mappedRDD的数据会丢失，不会缓存。所以是先缓存，再combine()。最近插入或者读取的分区数据放在表头，尾部的数据就是当前最久未被使用的，替换时直接删掉尾部就行。map()，cache()，shuffle前的combine()的执行顺序是怎么样的呢？2.spark难以获取缓存rdd的生命周期，难以精确的缓存替换。

Spark-RDD-持久化详解

喻师傅的学习笔记

05-23

1298

Spark-RDD-持久化详解

Spark RDD持久化机制

梁辰兴的博客

06-06

798

Spark会自动监视每个节点上的缓存使用情况，并以最近最少使用的方式从缓存中删除旧的分区数据。从上述代码可以看出，cache()方法调用了无参的persist()方法，两者的默认存储级别都为MEMORY_ONLY，但cache()方法不可更改存储级别，而persist()方法可以通过参数自定义存储级别。Spark中重要的功能之一是可以将某个RDD中的数据保存到内存或者磁盘中，每次需要对这个RDD进行算子操作时，可以直接从内存或磁盘中取出该RDD的持久化数据，而不需要从头计算才能得到这个RDD。

【SparkCore篇05】RDD缓存和checkpoint1

08-04

与缓存不同，checkpoint会将RDD及其依赖关系写入持久化存储（如HDFS），并且删除原有依赖信息，这样即便发生故障，可以从最近的checkpoint点快速恢复，降低容错成本。在Spark中，我们使用`RDD.checkpoint()`方法设置...

大数据Spark面试题汇总

04-12

10. **Spark持久化**： - 在内存压力大或希望防止重计算时，使用`persist()`或`cache()`操作。 - 可选择不同的持久化级别，如Memory-Only、Memory-and-Disk等。 11. **Join操作优化**： - 减小join数据量：...

Spark 练习题-数据

06-26

4. **数据加载与持久化** Spark可以读取各种数据源，如HDFS、Cassandra、HBase等。`SparkSession.read`接口用于加载数据，支持多种格式如CSV、JSON、Parquet、ORC等。数据加载后，可以使用`cache`或`persist`进行...

Spark 编程指南简体中文版.pdf

11-23

* Streaming 的输出操作和缓存或持久化 * Checkpointing：Streaming 中的检查点机制 Spark SQL * Spark SQL：Spark 的 SQL 模块 * 数据源：Spark SQL 的数据源，包括 RDD、Parquet 文件和 JSON 数据集 * 性能调优...

惰性求值的简单介绍

dsl200970的博客

04-12

1852

惰性求值意味着当我们对RDD调用转化操作（例如调用filter() ）时，操作不会立即执行。Spark会在内部记录下所要执行的操作的相关信息。所以我们这时不应该把RDD看作存放着特定数据的数据集，而要把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。把数据读取到RDD的操作也同样是惰性的。因此，当我们调用sc.textFile(...) 时，数据并没有被读取到内存中，而是要在

spark的持久化

QiuYang18的博客

11-30

605

spark的持久化 cache persisit checkpoint 以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。 1. cache 默认将RDD的数据持久化到内存中。cache是懒执行。注意：cache () ...

【Spark】SparkStreaming缓存操作，SparkStreaming程序的部署、升级与维护、优化建议(十一)

大数据爱好者的博客

05-22

1105

Spark会每隔batchDuration时间去提交一次Job，如果你的Job处理的时间超过了batchDuration的设置，那么会导致后面的作业无法按时提交，随着时间的推移，越来越多的作业被拖延，最后导致整个Streaming作业被阻塞，这就间接地导致无法实时处理数据，这肯定不是我们想要的。要注意的是，如果你要执行窗口长度为30分钟的窗口操作，那么Executor的内存资源就必须足够保存30分钟内的数据，因此内存的资源要求是取决于你执行的操作的。换句话说，batch应该在生成之后，就尽可能快地处理掉。

Spark—算子—spark缓存策略

weixin_48370579的博客

07-12

337

Spark—算子—spark缓存策略转换算子和操作算子转换算子转换算子：将一个RDD转换成另一个RDD，转换算子是懒执行，需要action算子来触发执行操作算子触发任务执行，一个action算子会触发一次任务执行，同时每一个action算子都会触发前面的代码执行 package com.core.day2 import org.apache.spark.rdd.RDD import ...

spark 缓存表的使用

LXP

11-30

3666

spark 几种缓存数据的方法1- 缓存表2-缓存结果查看3-缓存参数设置 1- 缓存表 1、cache table //缓存全表 sqlContext.sql("CACHE TABLE activity") //缓存过滤结果 sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...") CACHE TABLE是即时生效(eager)的，如果你想等到一个action操作再缓存数据可以使用CACHE LA

第二部分：Spark进阶篇

index_test的博客

09-05

1777

Spark进阶篇包括：SparkShuffle、容错机制、Checkpoint机制、广播变量、累加器、Kryo序列化、Spark数据本地化、SparkSql、SparkStreaming等知识点

Spark持久化

weixin_41812379的博客

10-31

317

假设我们在对RDD进行转化的时候，需要用同一个RDD得到两个结果，如下面代码所示。 val rdd = sparkContext.makeRDD(List( ("a",1),("a",2),("c",3), ("b",4),("c",5),("c",6) ),1) val rdd1 = rdd.map(x => { (x._1, x._2 + 1) }) val reduceRDD = rdd1.reduceB

Spark之缓存策略

chbxw

04-29

3478

spark 缓存策略 cache checkpoint 血统宽窄依赖

spark的RDD的持久化

11-11

Spark为了避免这种重复计算的情况，实现了RDD持久化功能，主要有三个算子：cache、persist和checkpoint。其中，cache()和persist()都是将RDD缓存到内存中，以便后续的重复使用。cache()默认将RDD缓存到内存中，而...