substract repartition sortedBy collect sum reduce Aggregreate take takeOrder min/max foreach算子底层实现

清蒸小土豆

于 2021-04-12 10:07:42 发布

阅读量172

点赞数 1

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Little_good/article/details/115608071

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

substract

用cogroup实现效率低
substract 求差集
在这里插入图片描述

shuffle之后在每个分区将重复的部分相减这样比cogroup效率高

如果之前都被同样的分区器分区过了就不用再shuffle了

substract调用substractbykey 再调用一个substractRDD

repartition coalesce

可以改变分区的数量，底层调用coalesce
coalesce 减少分区数量可以不shuffle，但是增加分区数量一定要shuffle
但是分区器变了，是生成一个随机数作为key分区更均匀。

sortedBy

是transition算子但是会触发action 进行全局抽样
在这里插入图片描述
按数据抽样分区然后将数据按范围分到不同的分区排序然后再汇总
再map端进行

collect

在这里插入图片描述

调用runjob方法里面的函数在executor中运行 Array。concat在driver端执行
array是有角标的所以返回的结果会按顺序排列

count

在这里插入图片描述

reduce 和 sum

在这里插入图片描述
第一个函数在executor端执行
第二个函数在driver端执行

aggregate

在这里插入图片描述
每个分区应用一次初始值
全局在应用一次初始值

take

按需要触发action
取出的数据在几个分区就触发几个action
take（0）不触发action

takeOrdered

默认升序排序取出前三个takeOrdered（3）
在map端创造一个有限优先队列将每个分区的top3放进去
分区之后将队列再相加得出最大的三个
返回

max min

调用reduce方法出入比大小函数
不需要shuffle

foreach foreachpartition

在这里插入图片描述

将每一个迭代器应用一下外部的函数

在这里插入图片描述
foreach一个分区应用一下函数

如果要建立连接
foreach要建立很多次跟mappartitionRDD一样的

清蒸小土豆

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
substract repartition sortedBy collect sum reduce Aggregreate take takeOrder min/max foreach算子底层实现

substract用cogroup实现效率低substract 求差集shuffle之后在每个分区将重复的部分相减这样比cogroup效率高如果之前都被同样的分区器分区过了就不用再shuffle了substract调用substractbykey 再调用一个substractRDDrepartition coalesce可以改变分区的数量，底层调用coalescecoalesce 减少分区数量可以不shuffle，但是增加分区数量一定要shuffle但是分区器变
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。