Spark persist MEMORY_AND_DISK & DISK_ONLY_spark memory and disk-CSDN博客

本文链接：https://blog.csdn.net/oscarun/article/details/92811853

文章目录

1 Overview
2 Summary

1 Overview

假设程序中需要对一个接近 3T 的模型文件进行 cache。

3T 的文件: hdfs://xxx:9000/xxx_graph

object Persona {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder
      .appName("模型 cache 测试")
      .getOrCreate()

    val actions = spark.sparkContext.textFile(args(0)).persist(StorageLevel.MEMORY_AND_DISK).setName("model")

    // 触发 cache，没有实际意义
    println(s"number of actions: ${actions.count()}")

    // 10 mins
    Thread.sleep(1000 * 60 * 10)
  }
}

测试思路，3T 的模型，如果要 cache 住，50G 的 Executor，至少需要 3T * 1024G/T / 50G * 2 = 125个左右。（乘以2是因为 Executor 的 JVM 默认大概会用 50% 的 Host 内存）。测试中使用20个。

代码如果使用 StorageLevel.MEMORY_AND_DISK，会有个问题，因为20个 Executor，纯内存肯定是不能 Cache 整个模型的，模型数据会 spill 到磁盘，同时 JVM 会处于经常性的 GC，这样这个操作肯定是非常耗时的。

如下图，560G 基本是可用于 Cache 的内存了，其余时间一直在刷盘。

image_1ddmq5gdrksecn1udb5rpjbnm.png-36.2kB