Spark的cache和persist

最新推荐文章于 2024-04-09 00:19:38 发布

礼彬fly

最新推荐文章于 2024-04-09 00:19:38 发布

阅读量4.3k

点赞数

分类专栏： Bigdatda-Spark

本文链接：https://blog.csdn.net/baolibin528/article/details/54407061

版权

Bigdatda-Spark 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

Spark的cache和persist

------------------------------------------------------------------------------------------------------

  cache调用的就是persist方法，默认存储级别只存储在内存中。 

  cache和persist的区别：cache只有一个默认的缓存级别MEMORY_ONLY ，而persist可以根据情况设置其它的缓存级别。 

  ------------------------------------------------------------------------------------------------------ 

  cache是Transformation类型的算子，只有在第一次计算使用之前才会被缓存。 

 
 ------------------------------------------------------------------------------------------------------

  几种存储级别如下： 

 
 MEMORY_ONLY 

  默认选项，RDD的（分区）数据直接以Java对象的形式存储于JVM的内存中，如果内存空间不足，某些分区的数据将不会被缓存，需要在使用的时候根据血统重新计算。 

 
 MYMORY_AND_DISK 

  RDD的数据直接以Java对象的形式存储于JVM的内存中，如果内存空间不中，某些分区的数据会被存储至磁盘，使用的时候从磁盘读取。 

 
 MEMORY_ONLY_SER 

  RDD的数据（Java对象）序列化之后存储于JVM的内存中（一个分区的数据为内存中的一个字节数组），相比于MEMORY_ONLY能够有效节约内存空间（特别是使用一个快速序列化工具的情况下），但读取数据时需要更多的CPU开销；如果内存空间不足，处理方式与MEMORY_ONLY相同。 

 
 MEMORY_AND_DISK_SER 

  相比于MEMORY_ONLY_SER，在内存空间不足的情况下，将序列化之后的数据存储于磁盘。 

  DISK_ONLY 

  仅仅使用磁盘存储RDD的数据（未经序列化）。 

 
 MEMORY_ONLY_2,MEMORY_AND_DISK_2, 

  以MEMORY_ONLY_2为例，MEMORY_ONLY_2相比于MEMORY_ONLY存储数据的方式是相同的，不同的是会将数据备份到集群中两个不同的节点，其余情况类似。 

 
 OFF_HEAP(experimental) 

  RDD的数据序例化之后存储至Tachyon。相比于MEMORY_ONLY_SER，OFF_HEAP能够减少垃圾回收开销、使得Spark Executor更“小”更“轻”的同时可以共享内存； 

  而且数据存储于Tachyon中，Spark集群节点故障并不会造成数据丢失，因此这种方式在“大”内存或多并发应用的场景下是很有吸引力的。需要注意的是， 

  Tachyon并不直接包含于Spark的体系之内，需要选择合适的版本进行部署；它的数据是以“块”为单位进行管理的，这些块可以根据一定的算法被丢弃，且不会被重建。 

 
 ------------------------------------------------------------------------------------------------------

  一个例子： 

import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
/**
  * Created by User on 2016/11/2.
  */
object cacheAndPersist {
  def main(args: Array[String]): Unit = {
    if(args.length!=1){
      System.err.println("Usage <Input>")
      System.exit(1)
    }
    val Array(input)=args
    //val input="E://sparkData/cacheAndPersist.txt"
    val conf: SparkConf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("cacheAndPersist")
    val sc: SparkContext = new SparkContext(conf)

    val data1=sc.textFile(input)
        .map(_.split("\\|",100))
        .map(line=>{
          val Array(name,age)=line
          (name,age)
        }).cache()
    val data2=sc.textFile(input)
      .map(line => {line.split("\\|",100)})
      .map(x=>{
        val Array(name,age)=x
        (name,age)
      }).filter(y=>{y._1.equals("ML")}).persist(StorageLevel.MEMORY_AND_DISK)

    val data3=data1.intersection(data2).foreach(println)
  }
}

  输入： 

  运行结果： 

礼彬fly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的cache和persist

Spark的cache和persist------------------------------------------------------------------------------------------------------cache调用的就是persist方法，默认存储级别只存储在内存中。cache和persist的区别：cache只有一个默认的缓存级别
复制链接

扫一扫