一般是在具有容错能力,高可靠的文件系统上(比如HDFS, S3等)设置一个检查点路径,用于保存检查点数据。设置检查点可以在应用程序中使用streamingContext.checkpoint(checkpointDirectory)
来指定路径。
如果想要应用程序在失败重启时使用到检查点存储的元数据信息,需要应用程序具有以下两个特性,需要使用StreamingContext.getOrCreate
代码在失败时重新创建StreamingContext
对象:
- 当应用程序是第一次运行时,创建一个新的
StreamingContext
对象,然后开始执行程序处理DStream。 -
当应用程序失败重启时,可以从设置的检查点路径获取元数据信息,创建一个
StreamingContext
对象,并恢复到失败前的状态。def functionToCreateContext(): StreamingContext = { val ssc = new StreamingContext(...) // 创建一个新的StreamingContext对象 val lines = ssc.socketTextStream(...) // 得到DStreams ... ssc.checkpoint(checkpointDirectory) // 设置checkpoint路径 ssc } // 用checkpoint元数据创建StreamingContext对象或根据上面的函数创建新的对象 val context = StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _) // 设置context的其他参数 context. ... // 启动context context.start() context.awaitTermination()
如果checkpointDirectory
路径存在,会使用检查点元数据恢复一个StreamingContext
对象。如果路径不存在,或者程序是第一次运行,则会使用functionToCreateContext
来创建一个新的StreamingContext
对象