Spark 优化一（算子对比）

最新推荐文章于 2023-01-01 14:13:17 发布

wybdt

最新推荐文章于 2023-01-01 14:13:17 发布

阅读量307

点赞数 1

分类专栏： spark调优文章标签： spark

本文链接：https://blog.csdn.net/qq_42418371/article/details/104946923

版权

reduceByKey和groupByKey

建议使用reduceByKey**或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说比较差。
reduceBykeyAndWindow 对每个窗口的数据执行reduceBykey操作
groupBykeyAndWindow 对每个窗口的数据执行groupBykey操作

mapPartitions和map

mapPartitions类的算子，一次函数调用会处理一个partition所有的数据，而不是一次函数调用处理一条，性能相对来说会高一些，若函数需要创建对象，map会为每次计算创建对象，mapPartition会为一个分区创建一个对象。但是有的时候，使用mapPartitions会出现OOM（内存溢出）的问题。因为单次函数调用就要处理掉一个partition所有的数据，如果内存不够，垃圾回收时是无法回收掉太多对象的，很可能出现OOM异常。
可以通过大Executor解决OOM异常

foreachPartitions和foreach

原理类似于“使用mapPartitions替代map”，也是一次函数调用处理一个partition的所有数据，而不是一次函数调用处理一条数据。在实践中发现，foreachPartitions类的算子，对性能的提升还是很有帮助的。比如在foreach函数中ÿ

最低0.47元/天解锁文章

wybdt

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark 优化一（算子对比）

reduceByKey和groupByKey建议使用reduceByKey**或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说比较差。mapPa...
复制链接

扫一扫