Spark的cache和persist

Spark的cache和persist

------------------------------------------------------------------------------------------------------

cache调用的就是persist方法,默认存储级别只存储在内存中。
cache和persist的区别:cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据情况设置其它的缓存级别。

------------------------------------------------------------------------------------------------------
cache是Transformation类型的算子,只有在第一次计算使用之前才会被缓存。

------------------------------------------------------------------------------------------------------
几种存储级别如下:

MEMORY_ONLY
默认选项,RDD的(分区)数据直接以Java对象的形式存储于JVM的内存中,如果内存空间不足,某些分区的数据将不会被缓存,需要在使用的时候根据血统重新计算。
MYMORY_AND_DISK
RDD的数据直接以Java对象的形式存储于JVM的内存中,如果内存空间不中,某些分区的数据会被存储至磁盘,使用的时候从磁盘读取。
MEMORY_ONLY_SER
RDD的数据(Java对象)序列化之后存储于JVM的内存中(一个分区的数据为内存中的一个字节数组),相比于MEMORY_ONLY能够有效节约内存空间(特别是使用一个快速序列化工具的情况下),但读取数据时需要更多的CPU开销;如果内存空间不足,处理方式与MEMORY_ONLY相同。
MEMORY_AND_DISK_SER
相比于MEMORY_ONLY_SER,在内存空间不足的情况下,将序列化之后的数据存储于磁盘。
DISK_ONLY
仅仅使用磁盘存储RDD的数据(未经序列化)。
MEMORY_ONLY_2,MEMORY_AND_DISK_2,
以MEMORY_ONLY_2为例,MEMORY_ONLY_2相比于MEMORY_ONLY存储数据的方式是相同的,不同的是会将数据备份到集群中两个不同的节点,其余情况类似。
OFF_HEAP(experimental)
RDD的数据序例化之后存储至Tachyon。相比于MEMORY_ONLY_SER,OFF_HEAP能够减少垃圾回收开销、使得Spark Executor更“小”更“轻”的同时可以共享内存;
而且数据存储于Tachyon中,Spark集群节点故障并不会造成数据丢失,因此这种方式在“大”内存或多并发应用的场景下是很有吸引力的。需要注意的是,
Tachyon并不直接包含于Spark的体系之内,需要选择合适的版本进行部署;它的数据是以“块”为单位进行管理的,这些块可以根据一定的算法被丢弃,且不会被重建。
------------------------------------------------------------------------------------------------------
一个例子:
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
/**
  * Created by User on 2016/11/2.
  */
object cacheAndPersist {
  def main(args: Array[String]): Unit = {
    if(args.length!=1){
      System.err.println("Usage <Input>")
      System.exit(1)
    }
    val Array(input)=args
    //val input="E://sparkData/cacheAndPersist.txt"
    val conf: SparkConf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("cacheAndPersist")
    val sc: SparkContext = new SparkContext(conf)

    val data1=sc.textFile(input)
        .map(_.split("\\|",100))
        .map(line=>{
          val Array(name,age)=line
          (name,age)
        }).cache()
    val data2=sc.textFile(input)
      .map(line => {line.split("\\|",100)})
      .map(x=>{
        val Array(name,age)=x
        (name,age)
      }).filter(y=>{y._1.equals("ML")}).persist(StorageLevel.MEMORY_AND_DISK)

    val data3=data1.intersection(data2).foreach(println)
  }
}
输入:

运行结果:


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值