关于spark中cache和广播变量的区别

RDD分为多个分区这些分区本身充当整个RDD的不可变子集。当Spark执行图的每个阶段时,每个分区都会被发送给一个工作在该数据子集上的工作者。反过来,如果RDD需要重新迭代,每个工作人员可以缓存数据。

广播变量用于向每个工作人员发送一次不可变状态当你想要一个变量的本地副本时使用它们。

这两个操作彼此完全不同,每个操作代表一个不同问题的解决方案。


持久化 RDD时,每个节点都会存储它在内存中计算的所有分区,并在该数据集上的其他操作(或从中派生的数据集)中重用它们。这可以使未来的行动更快(通常超过10倍)。缓存是迭代算法和快速交互式使用的关键工具。

每个坚持RDD可以存储使用不同的存储层次,让您,例如,坚持在磁盘上的数据集,在坚持它的内存,但作为序列化的Java对象(以节省空间),将它复制跨节点,或将其存储摘堆

广播变量允许程序员在每台机器上保存一个只读变量,而不是随任务一起发送它的副本。例如,可以使用它们以有效的方式为每个节点提供一个大型输入数据集的副本。Spark还试图使用高效的广播算法来分发广播变量,以降低通信成本。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值