RDD持久化机制

一、RDD持久化

1.不采用持久化操作

查看要操作的HDFS文件

 以集群模式启动Spark Shell

 按照图示进行操作,得RDD4和RDD5

查看RDD4内容,会从RDD1到RDD2到RDD3到RDD4跑一趟 

查看RDD4内容,会从RDD1到RDD2到RDD3到RDD4跑一趟

3、采用持久化操作

    可以在RDD上使用persist()或cache()方法来标记要持久化的RDD(cache()方法实际上底层调用的是persist()方法)。在第一次行动操作时将对数据进行计算,并缓存在节点的内存中。Spark的缓存是容错的:如果缓存的RDD的任何分区丢失,Spark就会按照该RDD原来的转换过程自动重新计算并缓存。
 

计算到RDD3时,标记持久化

 计算RDD4,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟

 计算RDD5,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟

二、存储级别

package net.cxf.rdd.day05

import org.apache.log4j.{Level, Logger}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}

import java.awt.SystemTray

object SetStorageLevel {
  def main(args: Array[String]): Unit = {
    //创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("SetStorageLevel") //设置应用名称
      .setMaster("local[*]") //设置主节点位置(本地调试>
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)

    //去除Spark运行信息
    Logger.getLogger("org").setLevel(Level.OFF)
    Logger.getLogger("com").setLevel(Level.OFF)
    System.setProperty("spark.ui.showConsoleProgress", "false")
    Logger.getRootLogger().setLevel(Level.OFF)

    //创建RDD
    val rdd = sc.textFile("hdfs://master:9000/park/words.txt")

    //将rdd标记为持久化,采用默认存储级别- StorageLevel.MEMORY_ONLY
    rdd.persist() //无参持久化方法

    //对rdd做扁平映射,得到rdd1
    val rdd1 = rdd.flatMap(_.split(" "))

    //将rdd1持久化都磁盘
    rdd1.persist(StorageLevel.DISK_ONLY)

    //将rdd1映射成二元组,得到rdd2
    val rdd2 = rdd1.map((_, 1))

    //将rdd2持久化到内存,溢出的数据持久化到磁盘
    rdd2.persist(StorageLevel.MEMORY_AND_DISK)

    //第一次行动算子,对标记为持久化的RDD进行不同级别的持久化曹
    println("元素个数:" + rdd2.count)

    //第二次行动算子,直接利用rdd2的持久化数据进行操作,无须从头进行计算
    rdd2.collect.foreach(println)
  }
}

查看运行结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值