Spark—RDD持久化

本文深入探讨Spark核心中的RDD持久化,包括RDD的Cache缓存机制,解释了如何默认在内存中存储数据,以及在行动算子触发时进行缓存。接着讨论了存储级别和缓存的容错性,强调了Shuffle操作中间数据的持久化重要性。RDD CheckPoint检查点作为另一种策略,通过将数据写入磁盘来减少血缘依赖,提高容错效率。最后,对比了Cache与CheckPoint的区别,强调Cache的临时性和CheckPoint的可靠性,以及在使用checkpoint()时配合Cache的策略。
摘要由CSDN通过智能技术生成

【Spark Core篇】Spark持久化

1、 RDD Cache 缓存

  • RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存。在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的 action 算 子时,该 RDD 将会被缓存在计算节点的内存中,并供后面重用。
// cache 操作会增加血缘关系,不改变原有的血缘关系
println(wordToOneRdd.toDebugString)
// 数据缓存。
wordToOneRdd.cache()
// 可以更改存储级别
//mapRdd.persist(StorageLevel.MEMORY_AND_DISK_2)

2、存储级别

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值