Spark修炼之道（进阶篇）——Spark入门到精通：第十四节 Spark Streaming 缓存、Checkpoint机制

最新推荐文章于 2021-08-23 22:57:58 发布

zhouzhihubeyond

最新推荐文章于 2021-08-23 22:57:58 发布

阅读量3.1w

点赞数 9

分类专栏： Spark Spark修炼之道文章标签： spark

本文链接：https://blog.csdn.net/lovehuangjiaju/article/details/50102831

版权

本文详细介绍了Spark Streaming的缓存机制，包括DStream如何持久化数据以及reduceByKeyAndWindow方法中的自动缓存。同时，讨论了Checkpoint机制的重要性，分为元数据检查点和数据检查点，用于确保在系统错误或JVM故障时能恢复应用程序。最后，提供了一个案例展示如何在实践中应用这些概念。

摘要由CSDN通过智能技术生成

作者：周志湖
微信号：zhouzhihubeyond

主要内容

本节内容基于官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html

Spark Stream 缓存
Checkpoint
案例

1. Spark Stream 缓存

通过前面一系列的课程介绍，我们知道DStream是由一系列的RDD构成的，它同一般的RDD一样，也可以将流式数据持久化到内容当中，采用的同样是persisit方法，调用该方法后DStream将持久化所有的RDD数据。这对于一些需要重复计算多次或数据需要反复被使用的DStream特别有效。像reduceByWindow、reduceByKeyAndWindow等基于窗口操作的方法，它们默认都是有persisit操作的。reduceByKeyAndWindow方法源码具体如下：

def reduceByKeyAndWindow(
      reduceFunc: (V, V) => V,
      invReduceFunc: (V, V) => V,
      windowDuration: Duration,
      slideDuration: Duration,
      partitioner: Partitioner,
      filterFunc: ((K, V)) => Boolean
    ): DStream[(K, V)] = ssc.withScope {

    val cleanedReduceFunc = ssc.sc.clean(reduceFunc)
    val cleanedInvReduceFunc = ssc.sc.clean(invReduceFunc)
    val cleanedFilterFunc = if (filterFunc != null) Some(ssc.sc.clean(filterFunc)) else None
    new ReducedWindowedDStream[K, V](
      self, cleanedReduceFunc, cleanedInvReduceFunc, cleanedFilterFunc,
      windowDuration, slideDuration, partitioner
    )
  }

从上面的方法来看，它最返回的是一个ReducedWindowedDStream对象，跳到该类的源码中可以看到在其主构造函数中包含下面两段代码：

private[streaming]
class ReducedWindowedDStream[K: ClassTag, V: ClassTag](
    parent: DStream[(K, V)],
    reduceFunc: (V, V) => V,
    invReduceFunc: (V, V) => V,
    filterFunc: Option[((K, V)) => Boolean],
    _windowDuration: Duration,
    _slideDuration: Duration,
    partitioner: Partitioner
  ) extends DStream