spark中cache和checkpoint使用

1)cache
cache是为了追求计算的速度
spark中计算任务在内存中,但是结果是存储在磁盘中的,所以首次运行会慢,之后会拿磁盘中的计算结果,所以后面会快很多

通过对结果的RDD分布式数据集进行cache,将计算结果缓存在内存中,这样会比缓存在磁盘中更快的读取。
比如计算log文件的行数

scala> val rdd1 = sc.textFile("hdfs://192.168.252.121:9000/cache/itstar.log")
rdd1: org.apache.spark.rdd.RDD[String] = hdfs://192.168.252.121:9000/cache/itstar.log MapPartitionsRDD[1] at textFile at <console>:24

scala> rdd1.count
res0: Long = 8031 

首次执行会花费20多秒,第二次在3秒。
在执行cache后,花费在毫秒级

scala> val rdd1 = sc.textFile("hdfs://192.168.252.121:9000/cache/itstar.log")
scala> val rdd1cache = rdd1.cache
scala> rdd1cache.count

在这里插入图片描述
sc.textFile的结果都存储在内存中,所以读取非常快
在这里插入图片描述
2)checkpoint
checkpoint是为了出现机器故障后,保证数据计算结果的安全性
可以将计算的中间结果备份存储在hdfs的某个目录下
checkdir文件夹会自动创建

sc.checkpointDir("hdfs://192.168.252.121:9000/checkdir")

然后哪个rdd结果想先保存就可以调用checkpoint方法

scala> val rddc = rdd1.filter(_.contains("bigdata"))
scala> rddc.checkpoint

那么rdd1过滤后的数据集将会保存在checkdir目录中
比如调用rddc.count

rddc.count

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值