RDD(缓存|检查点|广播变量|累加器)

缓存、检查点、广播变量、累加器

缓存

rdd_item.cache().count()

rdd_item.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)

rdd_item.unpersist().count()

--------------------------------------------------------

检查点

# 设置检查点保存位置

sc.setCheckpointDir('/spark/checkpoint')

# 设置开启检查点
rdd_map.checkpoint()

rdd_map.count()

--------------------------------------------------------

广播变量

# 设置广播变量

bc = sc.broadcast(值)

# 获取广播变量

bc.value

--------------------------------------------------------

累加器

1- 由于Driver设置一个累加器的初始值
     累加器对象 = sc.accumulator(初始值)
2- 由rdd(线程)来进行累加操作
     累加器对象.add(累加内容)
3- 在Driver中获取值:
     累加器.value

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值