Spark2.1.0——ContextCleaner的工作原理分析

最新推荐文章于 2024-08-04 23:37:43 发布

泰山不老生

最新推荐文章于 2024-08-04 23:37:43 发布

阅读量6.8k

点赞数 2

分类专栏：大数据 Spark Scala 深入理解Spark 文章标签： Spark Core SparkContext ContextCleaner scala

本文链接：https://blog.csdn.net/beliefer/article/details/84998806

版权

本文深入剖析了SparkContext中的ContextCleaner组件，阐述其在Spark应用中的作用，包括清理RDD、Shuffle状态、元数据、Broadcast对象和Checkpoint数据。介绍了ContextCleaner的创建过程，组件组成如referenceQueue、referenceBuffer、cleaningThread、periodicGCService，以及如何通过配置属性控制其行为。此外，还详细解析了ContextCleaner的启动步骤及工作原理，包括定时执行的GC操作和监听器模式的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ContextCleaner是SparkContext中的组件之一。ContextCleaner用于清理那些超出应用范围的RDD、Shuffle对应的map任务状态、Shuffle元数据、Broadcast对象以及RDD的Checkpoint数据。

创建ContextCleaner

创建ContextCleaner的代码如下。

    _cleaner =
      if (_conf.getBoolean("spark.cleaner.referenceTracking", true)) {
        Some(new ContextCleaner(this))
      } else {
        None
      }
    _cleaner.foreach(_.start())

根据上述代码，我们知道可以通过配置属性spark.cleaner.referenceTracking（默认是true）来决定是否启用ContextCleaner。

ContextCleaner的组成如下：