2021-06-02

最新推荐文章于 2021-11-09 20:10:55 发布

The Great Ant

最新推荐文章于 2021-11-09 20:10:55 发布

阅读量34

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37698495/article/details/117485917

版权

spark 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Spark的transformation算子

1）单Value

（1）map：一个一个数据的处理

（2）mapPartitions：一次性处理一个分区的数据

（3）mapPartitionsWithIndex：带分区号的打印

（4）flatMap：map+flat 扁平化拍平

（5）glom：分区转换成数组

（6）groupBy：聚合

（7）filter：过滤

（8）sample：取样不放回伯努利放回泊松

（9）distinct：去重

（10）coalesce：有两种模式走和不走shuffle，走就是repartition

（11）repartition：coalesce的简化版，改变分区

（12）sortBy：排序

（13）pipe：分区走脚本

2）双vlaue

（1）intersection：交集

（2）union：并集，不去重

（3）subtract：差集

（4）zip：比scala更严格的拉链

3）Key-Value

（1）partitionBy：选择分区器重新分区

（2）reduceByKey：预聚合，走shuffle，key值不变聚合value，不影响计算逻辑（sum）多使用reducebykey ，（avg）使用groupbykey

（3）groupByKey：key不变，按照value分组

（4）aggregateByKey：有初始值，填写分区内和分区间的计算逻辑

（5）foldByKey：有初始值，分区内和分区间的计算逻辑相同写一个

（6）combineByKey：最灵活，初始值可以改变数据的结构

（7）sortByKey：按照key值进行排序

（8）mapValues：只操作values的转换算子

（9）join：和sql的内连接一模一样

（10）cogroup：和sql中的full连接有点差异，cogroup会把values聚合在连接

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-06-02

Spark的transformation算子1）单Value （1）map：一个一个数据的处理（2）mapPartitions：一次性处理一个分区的数据（3）mapPartitionsWithIndex：带分区号的打印（4）flatMap：map+flat 扁平化拍平（5）glom：分区转换成数组（6）groupBy：聚合（7）filter：过滤（8）sample：取样不放回伯努利放回泊松
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。