Spark RDD弹性分布式数据集

Spark RDD弹性分布式数据集:

弹性1:RDD自动地进行内存和磁盘数据存储的切换

弹性2:基于Lineage的高效容错

弹性3:Task若失败,会自动进行特定次数的重试

弹性4:Stage若失败,会自动进行容错,只进行失败分片的重新计算

弹性5:repartition


做缓存的几个时机:

1.计算过程特别耗时

2.计算链条很长

3.shuffle之后

4.checkpoint

5.shuffle之前(框架默认帮助我们持久化)


cache()

之后不要立即接算子,否则会重新触发计算。


cache()是persist的特殊的情况,只能存在内存,只有一副副本。

persist可以内存和硬盘,副本可以不只一副。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值