Spark persist MEMORY_AND_DISK & DISK_ONLY

文章目录

1 Overview

假设程序中需要对一个接近 3T 的模型文件进行 cache。

3T 的文件: hdfs://xxx:9000/xxx_graph

object Persona {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder
      .appName("模型 cache 测试")
      .getOrCreate()

    val actions = spark.sparkContext.textFile(args(0)).persist(StorageLevel.MEMORY_AND_DISK).setName("model")

    // 触发 cache,没有实际意义
    println(s"number of actions: ${actions.count()}")

    // 10 mins
    Thread.sleep(1000 * 60 * 10)
  }
}

测试思路,3T 的模型,如果要 cache 住,50G 的 Executor,至少需要 3T * 1024G/T / 50G * 2 = 125个左右。(乘以2是因为 Executor 的 JVM 默认大概会用 50% 的 Host 内存)。测试中使用20个。

代码如果使用 StorageLevel.MEMORY_AND_DISK,会有个问题,因为20个 Executor,纯内存肯定是不能 Cache 整个模型的,模型数据会 spill 到磁盘,同时 JVM 会处于经常性的 GC,这样这个操作肯定是非常耗时的。

如下图,560G 基本是可用于 Cache 的内存了,其余时间一直在刷盘。

image_1ddmq5gdrksecn1udb5rpjbnm.png-36.2kB

所有 Executor 一直处于频繁的 GC。

image_1ddmq80bbucq1oee1gj51afj1bf51j.png-158.9kB

Memory 撑爆,CPU 一直繁忙。

image_1ddmqbdlc8mc5km1gg6jpo13rh2d.png-55.3kB

光是一个 Job 引发的 cache 模型,目测至少需要一个小时。

image_1ddmq8sm81kugjbjegtghisv720.png-52kB

以下是调整了 cache 级别,改为 StorageLevel.DISK_ONLY。没有了 GC 消耗。

image_1ddmqmjqf1jf5165m1oa6o445903a.png-144kB

10分钟已经完成30%的 task 了。

image_1ddmr2n9vmmr8qb1h9onhj18hc3n.png-52.3kB

2 Summary

针对大数据集,如果在 Memory 不足够的情况下(TB 级别的基本都很难有匹配的资源),可以让其直接落到磁盘,通过减少 GC Time 来改善程序的 Performance。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值