spark从入门到放弃二十四:Spark 性能优化(7)广播共享变量

43 篇文章 1 订阅

文章地址:http://www.haha174.top/article/details/254421

假设现在有一个配置文件很大又100M.默认的情况下算子函数使用到的外部的数据,会拷贝到每一个task中,此时如果使用到的外部的数据很大的话,那么岂不是在各个节点都会占用大量的内存!而且会产生大量的网络传输,大量的网络通信造成性能的开销。
这种情况下就应该对外部大数据进行Broatcast 广播,然后让其在每个节点上,就一分副本,而不是每个task 一份副本,大大减少每个节点的内存占用空间。
val BroatCastConf=sc.broatcast(myconf)
这样的话每个节点上就一个副本而不是每个task 一个副本大大减少每个节点上的占用空间。

欢迎关注,更多福利

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值