![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 92
记录Spark学习的点点滴滴
liangkw16
积极工作,快乐生活
展开
-
persist和cache原理和使用
persist和cache原理和使用// org.apache.spark.rdd/rdd.scaladef cache(): this.type = persist()def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)cache基于persist实现,本文重点对persist进行研究1.persist原理1.1 persist初衷Spark基于内存进行计算,不会缓存中间结果,如果计算中多次引用同一个RDD,那么每一次对该原创 2020-07-17 10:19:05 · 637 阅读 · 0 评论 -
Spark RDD分区知识总结
Spark RDD分区知识总结1. RDD1.1 RDD定义RDD(Resilient Distributed Dataset)——弹性分布式数据集,是Spark中最基本的数据抽象不可变(只读)分区自动容错位置感知调度可伸缩1.2 RDD属性(1)一组分区(Partition),即数据集的基本组成单位。对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Co原创 2020-05-25 14:55:30 · 856 阅读 · 0 评论