Spark性能调优：checkPoint的使用

最新推荐文章于 2024-07-06 09:25:15 发布

生命不息丶折腾不止

最新推荐文章于 2024-07-06 09:25:15 发布

阅读量2.7k

点赞数

分类专栏： spark 文章标签： spark 性能 checkPoint

本文链接：https://blog.csdn.net/leen0304/article/details/78718346

版权

本文介绍了Spark中checkPoint的概念，强调其作为检查点的重要性，用于避免长DAG计算过程中数据丢失导致的重复计算。详细阐述了RDD的依赖关系，如在wordcount操作中的转化过程，并详细说明了如何建立checkPoint，包括设置checkpoint目录和执行checkpoint的步骤。同时指出，为优化性能，建议先cache再checkpoint，以减少计算次数，且checkpoint完成后，所有RDD依赖将被销毁。

摘要由CSDN通过智能技术生成

概述

checkpoint的意思就是建立检查点，类似于快照，例如在spark计算里面，计算流程DAG特别长，服务器需要将整个DAG计算完成得出结果，但是如果在这很长的计算流程中突然中间算出的数据丢失了，spark又会根据RDD的依赖关系从头到尾计算一遍，这样子就很费性能，当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中，但是这样也不能保证数据完全不会丢失，存储的这个内存出问题了或者磁盘坏了，也会导致spark从头再根据RDD计算一遍，所以就有了checkpoint，其中checkpoint的作用就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS里面)。

RDD的依赖

checkpoint先了解一下RDD的依赖，比如计算wordcount：

scala>  sc.textFile("hdfs://leen:8020/user/hive/warehouse/tools.db/cde_prd").flatMap(_.split("\\\t")).map((_,1)).reduceByKey(_+_);
res0: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:28

scala> res0.toDebugString
res1: String = 
(2) ShuffledRDD[4] at reduceByKey at <console>:28 []
 +-(2) MapPartitionsRDD[3] at map at <console>:2