Spark基础（4）：当你df.cache()时，你在cache啥？

最新推荐文章于 2022-08-31 17:20:15 发布

u010823625

最新推荐文章于 2022-08-31 17:20:15 发布

阅读量1.4k

点赞数 1

分类专栏：算法·源码·API·纸上得来终觉浅文章标签： spark

本文链接：https://blog.csdn.net/u010823625/article/details/106072678

版权

11 篇文章 4 订阅 ¥79.90 ¥99.00

订阅专栏

本文探讨Spark中的存储级别，重点解析`df.cache()`操作。了解如何通过缓存优化数据处理流程，提升Spark作业的性能。

摘要由CSDN通过智能技术生成

Spark存储级别

存储级别	描述
NONE	不进行数据存储
MEMORY_ONLY	存储到内存中（cache的级别）
MEMORY_AND_DISK	优先存储到存储中，内存不足，磁盘存储
MEMORY_ONLY_SER	将RDD中的数据进行序列化，RDD的每个partition会被序列化成一个字节数组
MEMORY_AND_DISK_SER	超出内存的分区存储到磁盘上
DISK_ONLY	存储到磁盘上
MEMORY_ONLY_2 等	复制副本，进行容错
OFF_HEAP	存储到分布式内存文件系统中（Spark2.0之前支持）