有一个大的数据集和一个小的数据集,把每一个小的数据集在每一个executor里面进行缓存,大的小的数据集放在hdfs里面,如果传统的方法,那么就是调用join ,join.底层就是cogroup方法,
1.先把小的数据处理一下,但是每个Task只是读取部分数据,然后把每个Task的部分数据缓存起来,
2.读取大的数据,然后关联一些规则数据,也就是缓存起来的那部分小数据,但也有可能关联不上,当前的应用需要在executor里面进行缓存,
3.在进行广播应用的时候,只需要把数据广播到当前任务的executor里面就行,当一个Task读;了其中一部分,那么另外一个Task就不会读取另外一部分了,那么可以让每个Task读取其中的一部分,然后把数据collect到driver端,Driver端有BroadcastManager(广播变量管理器),他可以将Driver端的数据广播到executor里面,因此要广播的数据事先要在driver端准备好,然后再广播,
4.有可能广播的数据全部通过driver端读过来,然后广播到每个executor里面,他不是吧广播数据逐一发给executor而是先发给第一个executor,然后,,executor之间相互传,那这样之前缓存的数据,就不再缓存,而是Driver端发过来的数据给广播出去,这样效率会块很多,如果把数据一次性发给所有的executor,那么分发数据的效率会非常慢,
5.对数要处理的数据,不管以何种方式获取到一定要在Driver端准备好,然后广播,
二.
1.还有一种方式直接在Driver端读取数据,广播变量就是实现mapsidejoin,就是把application里面要用到的数据,每一个executor都要用到的数据,现在driver端准备好,发给当前应用的所有的executor,让所有的executor都具备同样的缓存的数据,那么Task就可以实现mapsidejoin,
2.什么是mapsidejoin,就是不需要join,直接在当前机器上获取所要的数据,
广播变量
最新推荐文章于 2024-02-21 08:00:00 发布