Spark RDD持久化策略

最新推荐文章于 2024-07-18 06:27:13 发布

ForeverSunshine

最新推荐文章于 2024-07-18 06:27:13 发布

阅读量1k

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/foreversunshine/article/details/63684209

版权

Spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

RDD持久化

Spark一个重要的特性是将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算一次即可，后面直接使用该RDD，而不需要反复计算多次该RDD。
要持久化一个RDD，只要调用其cache()或者persist()方法即可。在该RDD第一次被计算出来时，就会直接缓存在每个节点中。而且Spark的持久化机制还是自动容错的，如果持久化的RDD的任何partition丢失了，那么Spark会自动通过其源RDD，使用transformation操作重新计算该partition。

测试

object Persist {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Persist").setMaster("local")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("C:\\Users\\qiang\\Desktop\\spark.txt").cache()
    val begintime = System.currentTimeMillis()
    val count = lines.count()
    println("count=" + count)
    val endtime = System.currentTimeMillis()
    println("time= " + (endtime - begintime))
    println("==========")
    val begintime1= System.currentTimeMillis()
    val count1 = lines.count()
    println("count1=" + count1)
    val endtime1 = System.currentTimeMillis()
    println("time= " + (endtime1 - begintime1))
  }
}

不使用cache()

count=437474
time= 735
count1=437474
time1= 384

使用cache():

count=437474
time= 1360
count1=437474
time1= 29

调用cache()就是使用的MEMORY_ONLY策略。

ForeverSunshine

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录