SPARK图计算缓存踩坑记录整理

简单写写:

1、spark的cache只能将数据缓存在内存中,当缓存数据过大时,会只缓存部分数据,job UI的fraction cached显示该RDD缓存的百分比。之后复用该RDD时,没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。

2、persist可以选择存储级别,在缓存级别为MEMORY_AND_DISK和DISK_ONLY时,可以缓存下全量数据。

3、用fromEdgeTuples构建图的时候可以指定缓存级别,如果不指定则使用MEMORY_ONLY。

4、在图计算的时候,如果这个图过大,则不会一次完成全部计算。而是将数据分批,每次计算一批并和之前的结果进行归并。如果这个时候缓存级别又是MEMORY_ONLY,且RDD中的数据没有全部缓存下来,那么恭喜,会进行之前的操作去补全数据。。。

5、join操作需要读取全量的数据,如果其中一个比较大的RDD是缓存在disk中的,那么在这一步读出来的时候,往往会发生内存不足的问题导致任务失败。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值