spark优化

最新推荐文章于 2023-06-08 09:48:14 发布

别和硬盘比记忆

最新推荐文章于 2023-06-08 09:48:14 发布

阅读量92

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21705851/article/details/88382778

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、算子方面：
高性能的算子
1、使用mapPartitions替代map。
mapPartitions：处理一个partition所有的数据，可能会出现OOM；
2、使用foreachPartitions替代foreach；
3、使用repartitionAndSortWithinPartitions替代repartition与sort类操作；
4、使用filter之后进行coalesce操作；

避免shuffle类算子
shuffle类算子：repartition、repartitionAndSortWithinPartitions、coalesce、reduceByKey、groupByKey、sortByKey 、join、cogroup

二、RDD 方面：
1、 RDD复用
2、RDD的持久化

三、广播大变量
广播变量：需要在算子函数中使用外部变量
广播后的变量会在每个executor的内存中，只保留一份变量副本，而executor中的task执行时共享该executor中的那份变量副本。

四、kryo优化序列化
spark.serializer = org.apache.spark.serializer.KryoSerializer

五、优化数据结构
字符串替代对象；
使用原始类型替代字符串；
使用数组替代集合类型。

六、分配合理资源
提交任务时指定core和内存

七、设置合理并行度
task数量设置成 App的总cpu核数的2~3 倍

八、JVM调优

别和硬盘比记忆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark优化

一、算子方面：高性能的算子1、使用mapPartitions替代map。mapPartitions：处理一个partition所有的数据，可能会出现OOM；2、使用foreachPartitions替代foreach；3、使用repartitionAndSortWithinPartitions替代repartition与sort类操作；4、使用filter之后进行coalesce操...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。