spark中cache和checkpoint使用

最新推荐文章于 2023-11-16 13:28:04 发布

方兵兵

最新推荐文章于 2023-11-16 13:28:04 发布

阅读量841

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/u010800708/article/details/87875664

版权

大数据专栏收录该内容

36 篇文章 0 订阅

订阅专栏

1）cache
cache是为了追求计算的速度
spark中计算任务在内存中，但是结果是存储在磁盘中的，所以首次运行会慢，之后会拿磁盘中的计算结果，所以后面会快很多

通过对结果的RDD分布式数据集进行cache，将计算结果缓存在内存中，这样会比缓存在磁盘中更快的读取。
比如计算log文件的行数

scala> val rdd1 = sc.textFile("hdfs://192.168.252.121:9000/cache/itstar.log")
rdd1: org.apache.spark.rdd.RDD[String] = hdfs://192.168.252.121:9000/cache/itstar.log MapPartitionsRDD[1] at textFile at <console>:24

scala> rdd1.count
res0: Long = 8031

首次执行会花费20多秒，第二次在3秒。
在执行cache后，花费在毫秒级

scala> val rdd1 = sc.textFile("hdfs://192.168.252.121:9000/cache/itstar.log")
scala> val rdd1cache = rdd1.cache
scala> rdd1cache.count

在这里插入图片描述
sc.textFile的结果都存储在内存中，所以读取非常快

2）checkpoint
checkpoint是为了出现机器故障后，保证数据计算结果的安全性
可以将计算的中间结果备份存储在hdfs的某个目录下
checkdir文件夹会自动创建

sc.checkpointDir("hdfs://192.168.252.121:9000/checkdir")

然后哪个rdd结果想先保存就可以调用checkpoint方法

scala> val rddc = rdd1.filter(_.contains("bigdata"))
scala> rddc.checkpoint

那么rdd1过滤后的数据集将会保存在checkdir目录中
比如调用rddc.count

rddc.count

在这里插入图片描述

方兵兵

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark中cache和checkpoint使用

1）cachecache是为了追求计算的速度spark中计算任务在内存中，但是结果是存储在磁盘中的，所以首次运行会慢，之后会拿磁盘中的计算结果，所以后面会快很多通过对结果的RDD分布式数据集进行cache，将计算结果缓存在内存中，这样会比缓存在磁盘中更快的读取。比如计算log文件的行数scala&amp;gt; val rdd1 = sc.textFile(&quot;hdfs://192.168.252...
复制链接

扫一扫