Spark CheckPoint

最新推荐文章于 2022-02-09 12:09:44 发布

weixin_34194551

最新推荐文章于 2022-02-09 12:09:44 发布

阅读量87

点赞数

文章标签： python 大数据

原文链接：https://my.oschina.net/windows20/blog/1818915

版权

2019独角兽企业重金招聘Python工程师标准>>>

简述：

checkpoint就是存盘的意思，比如一个程序要运行10步，结果在第8步挂了，难道前面7步要重头再来？如果前面7步是非常耗时的话，那这样损失是非常大的。

步骤：

1、启动spark集群

cd /usr/local/spark-1.6.1-bin-hadoop2.6/sbin/
./start-all.sh

注意：之所以没有配置在环境变量里，是因为hadoop也有个start-all,怕有冲突

2、启动hdfs

start-dfs.sh

3、启动spark shell

cd /usr/local/spark-1.6.1-bin-hadoop2.6/bin/
./spark-shell --master spark://node01:7077 --executor-memory 1024m --total-executor-cores 4

4、设置checkpoint dir

sc.setCheckpointDir("hdfs://node01:9000/ck0001")

5、运行word count

 val res=sc.textFile("hdfs://node01:9000/myinput/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

6、将res放入缓存

 res.cache()

7、将res放入checkpoint中

res.checkpoint()

8、collect（必须要作Action类型的算子，否则不会往hdfs放）

res.collect()

8.1、命令执行完效果如下图

9、查看hdfs中的内容

 hdfs dfs -cat /ck0001/194cae8f-1124-4d3c-90ec-8107608b5119/rdd-9/part-00000

结果如下

9.1、或者用web hdfs查看（需要修改hdfs-site.xml使web-hdfs生效），如下图

转载于:https://my.oschina.net/windows20/blog/1818915

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34194551

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark-Checkpoint容错恢复(超级详细)

互联网知识分享

05-16

241

而checkpoint执行完之后，rdd已经没有之前所谓的依赖rdd了，而只有⼀个强⾏为其设置的checkpointRDD，checkpoint之后rdd的lineage就改变了。）checkpoint的元数据会记录jar的序列化的二进制文件，因为你改动过代码，然后重新编译，新的序列化jar文件，在checkpoint的记录中并不存在。（1）当我们spark 的容错机制使得某个任务或数据块丢失，都可以从最开始的数据源重新获取数据计算，然后恢复数据块和任务，如果计算比较多，计算链比较长，这个恢复过程就很长。

Spark Checkpoint原理与源码分析

u013174239的博客

06-02

1329

1、Checkpoint的应用场景 Checkpoint，是Spark提供的一个比较高级的功能。有的时候啊，比如说，我们的Spark应用程序，特别的复杂，然后呢，从初始的RDD开始，到最后整个应用程序完成，有非常多的步骤，比如超过20个transformation操作。而且呢，整个应用运行的时间也特别长，比如通常要运行1~5个小时。在上述情况下，就比较适合使用chec...

参与评论您还未登录，请先登录后发表或查看评论

spark的checkpoint

hanyong4719的博客

10-22

114

checkpoint的机制保证了需要访问重复数据的应用Spark的DAG执行行图可能很庞大，任务中计算链可能会很长，这时如果任务中途运行出错，那么任务的整个需要重算非常耗时，因此，有必要将计算代价较大的RDD checkpoint一下，当下游RDD计算出错时，可以直接从checkpoint过的RDD那里读取数据继续算。 import org.apache.spark.SparkContext ...

Spark 2.0从入门到精通245讲——操作RDD（action案例实战）

lishuan182的博客

10-12

565

package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext /** * @author Administrator */ object ActionOperation { def main(args: Array[String]) {

spark封神之路(12)-RDD checkpoint

HANG.NIAN

06-23

438

1 checkpoint介绍把rdd中的数据，直接存储到hdfs中或者本机目录中。适用场景：非常非常非常不容易得到的数据。迭代次数非常多的数据 SQL Server 数据库引擎可以在意外关闭或崩溃后从恢复期间开始应用日志中包含的更改 HDFS的元数据管理的时候我们提到过checkpoint机制 , 定期更新元数据的一种策略所以你可以简单理解成 Checkpoint 是用来容错的，当错误发生的时候，可以迅速恢复的一种机制A checkpoint creates a known

Spark中的checkpoint作用与用法

热门推荐

allen的博客

07-27

3万+

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问题

Spark Checkpoint 的使用、具体内容及读写过程

初心江湖路的博客

06-30

6061

引用：https://www.cnblogs.com/cenglinjinran/p/9542589.html

Spark checkPoint Demo

01-07

import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.dstream.ReceiverInputDStream object ...

spark 的checkpoint 详解

weixin_43548518的博客

05-12

1658

Spark core的checkpoint （1）为什么checkpoint？虽然RDD的血缘关系天然地可以实现容错，当RDD的某个分区数据失败或丢失，可以通过血缘关系重建。但是对于长时间迭代型应用来说，随着迭代的进行，RDDs之间的血缘关系会越来越长，一旦在后续迭代过程中出错，则需要通过非常长的血缘关系去重建，势必影响性能。 Spark中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage做容错的辅助，lineage过长会造

关于SparkStreaming的checkpoint的弊端

三劫散仙

02-11

144

框架版本 spark2.1.0 kafka0.9.0.0 当使用sparkstreaming处理流式数据的时候，它的数据源搭档大部分都是Kafka，尤其是在互联网公司颇为常见。当他们集成的时候我们需要重点考虑就是如果程序发生故障，或者升级重启，或者集群宕机，它究竟能否做到数据不丢不重呢？也就是通常我们所说的高可靠和稳定性，通常框架里面都带有不同层次的消息保证机制，一般...

Spark_Spark 中 checkpoint 的正确使用方式以及与 cache区别

迎难而上

06-14

5075

1.Spark性能调优：checkPoint的使用 https://blog.csdn.net/leen0304/article/details/78718346 概述 checkpoint的意思就是建立检查点，类似于快照，例如在spark计算里面，计算流程DAG特别长，服务器需要将整个DAG计算完成得出结果，但是如果在这很长的计算流程中突然中间算出的数据丢失了，spark又会根据RDD的依赖关系从头到尾计算一遍，这样子就很费性能，当然我们可以将中间的计算结果通过cache或者persi...

Spark--设置检查点checkpoint

小兔子乖乖

05-16

1082

checkpoint 简单来说checkpoint类似于快照 checkpoint作用 val sc: SparkContext = SparkContext.getOrCreate(conf) sc.setCheckpointDir("file:///D:/checkpointFile") //设置检查点保存的文件名 val rdd: RDD[(Int, String)] = sc.parallelize(Array((1,"a"),(2,"b"))) rdd.checkpoint() //设置检

Spark Streaming(3)：Windows设置checkpoint目录方法

chenghaiyu2960的博客

08-10

708

引用：http://blog.csdn.net/u012684933/article/details/46124957 Windows环境下设置spark streaming checkpoint： 1.下载zip包，比如解压到D:\checkpoint\ https://github....

PySparkSpark RDD的cheikpoint

feizuiku0116的博客

02-09

436

一、Checkpoint案例 from pyspark import SparkContext, SparkConf import os os.environ['SPARK_HOME'] = '/export/server/spark' SPARK_PYTHON = '/root/anaconda3/envs/pyspark_env/bin/python' os.environ['PYSPARK_PYTHON'] = SPARK_PYTHON os.environ['PYSPARK_DRIVER_PYTH

Spark Streaming checkpoint的问题与恢复

ZH519080的博客

11-29

2274

/**虽然checkpoint是对Spark Streaming运行过程中的元数据和每次RDD的数据状态 * 保存到一个持久化系统中，实现高可用性。 * 即使 * /**当程序修改后打包成新程序后，可能会报错，若删除checkpoint的开头文件，只保留数据文件： * hadoop dfs -rmr /checkpoint/checkpoint* * 但是新程序虽然能重...

Spark中的缓存(cache)和检查点(checkpoint)的使用和区别

LFQ244117370的博客

08-12

957

cache() 底层调用的局势persist(),只能设置缓存级别为StorageLevel.MEMORY_ONLY即在内存中进行缓存 persist() 这个才是真的缓存方法 --无参重载 => 只能设置缓存级别为StorageLevel.MEMORY_ONLY即在内存中进行缓存 --有参重载 => 可以设置缓存等级是否是⽤磁盘是否使⽤内存是否使⽤堆外内存是否反序列化副本的个数 object StorageLevel { val NONE = new StorageLevel(f.

Spark Checkpoint深入解析：源码与应用实践

"Spark的checkpoint源码讲解" Spark的Checkpoint机制是其容错恢复策略的重要组成部分，主要用于持久化中间结果并简化故障恢复过程。本文将深入解析Spark Checkpoint的源码，涵盖其基本使用、初始化、job生成及执行...