广播变量

有一个大的数据集和一个小的数据集,把每一个小的数据集在每一个executor里面进行缓存,大的小的数据集放在hdfs里面,如果传统的方法,那么就是调用join ,join.底层就是cogroup方法,

1.先把小的数据处理一下,但是每个Task只是读取部分数据,然后把每个Task的部分数据缓存起来,

2.读取大的数据,然后关联一些规则数据,也就是缓存起来的那部分小数据,但也有可能关联不上,当前的应用需要在executor里面进行缓存,

3.在进行广播应用的时候,只需要把数据广播到当前任务的executor里面就行,当一个Task读;了其中一部分,那么另外一个Task就不会读取另外一部分了,那么可以让每个Task读取其中的一部分,然后把数据collect到driver端,Driver端有BroadcastManager(广播变量管理器),他可以将Driver端的数据广播到executor里面,因此要广播的数据事先要在driver端准备好,然后再广播,

4.有可能广播的数据全部通过driver端读过来,然后广播到每个executor里面,他不是吧广播数据逐一发给executor而是先发给第一个executor,然后,,executor之间相互传,那这样之前缓存的数据,就不再缓存,而是Driver端发过来的数据给广播出去,这样效率会块很多,如果把数据一次性发给所有的executor,那么分发数据的效率会非常慢,

5.对数要处理的数据,不管以何种方式获取到一定要在Driver端准备好,然后广播,

二.

1.还有一种方式直接在Driver端读取数据,广播变量就是实现mapsidejoin,就是把application里面要用到的数据,每一个executor都要用到的数据,现在driver端准备好,发给当前应用的所有的executor,让所有的executor都具备同样的缓存的数据,那么Task就可以实现mapsidejoin,

2.什么是mapsidejoin,就是不需要join,直接在当前机器上获取所要的数据,

Spark广播变量是一种分布式只读共享变量。它通过将一个普通变量封装为广播变量,使得该变量可以在Executor端执行的代码中使用。广播变量的使用非常简单,只需要使用`broadcast`方法将一个普通变量封装为广播变量即可。例如,可以使用以下代码将一个可变的映射封装为广播变量: ``` val map = mutable.Map(("a", 4),("b", 5),("c", 6)) val bc: Broadcast[mutable.Map[String, Int]] = sc.broadcast(map) ``` 这样,在Executor端的代码中可以通过`bc.value`来获取广播变量的值,而不需要将整个变量传递到Executor端。广播变量的主要作用是可以在并行计算中共享数据,减少数据传输的开销,提高计算效率。因为广播变量在Executor端是只读的,所以不会出现数据一致性的问题。这使得广播变量非常适合在分布式计算中共享一些大型的只读数据集。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Spark共享变量(广播变量、累加器)](https://blog.csdn.net/Android_xue/article/details/79780463)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [spark 累加器,广播变量.docx](https://download.csdn.net/download/weixin_41801538/12279398)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Spark学习笔记(15)——广播变量](https://blog.csdn.net/m0_56602092/article/details/119452562)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值