spark cache

一.cache 缓存的一些说明:

  1. 后进行cache前提:

    • .要求的计算速度快,
    • .集群的资源要足够大
    • .重要:cache的数据会多次的触发Action,这个时候需要缓存,没这个前提用一次没必要缓存
    • .先进行过滤,然后将缩小范围的数据在cache到内存,过滤拿掉一部分数据。
  2. cache 底层调的方法

在这里插入图片描述

  • 底层调用的是persist(),这个方法很灵活,里面可以传参数]

  • unpersist(true) 释放内存 ,false 边释放边往里面写

在这里插入图片描述

  • StorageLevel.MEMORY_ONLY 这个参数重要,可以缓存磁盘和内存,还可以组合

在这里插入图片描述

  • 参数含义:
    第一个参数,放到磁盘
    第二个参数,放到内存
    第三个参数,磁盘中的数据,不是以java对象的方式保存
    第四个参数,内存中的数据,以java对象的方式保存
    val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
    带2是可以存副本,防止丢失
  1. 缓存部分数据
    如果你的内存小,但是数据还要多次触发提交action,需要缓存,这时候spark中的缓存方法可以缓存一部分,也可以提高效率
    毕竟内存有限。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值