Spark RDD持久化策略

RDD持久化

Spark一个重要的特性是将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。
要持久化一个RDD,只要调用其cache()或者persist()方法即可。在该RDD第一次被计算出来时,就会直接缓存在每个节点中。而且Spark的持久化机制还是自动容错的,如果持久化的RDD的任何partition丢失了,那么Spark会自动通过其源RDD,使用transformation操作重新计算该partition。

测试

object Persist {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Persist").setMaster("local")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("C:\\Users\\qiang\\Desktop\\spark.txt").cache()
    val begintime = System.currentTimeMillis()
    val count = lines.count()
    println("count=" + count)
    val endtime = System.currentTimeMillis()
    println("time= " + (endtime - begintime))
    println("==========")
    val begintime1= System.currentTimeMillis()
    val count1 = lines.count()
    println("count1=" + count1)
    val endtime1 = System.currentTimeMillis()
    println("time= " + (endtime1 - begintime1))
  }
}

不使用cache()

count=437474
time= 735
count1=437474
time1= 384

使用cache():

count=437474
time= 1360
count1=437474
time1= 29

调用cache()就是使用的MEMORY_ONLY策略。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值