Spark调优 — 个人小总结

大数据领军人

已于 2024-09-29 09:12:08 修改

阅读量262

点赞数 9

文章标签： spark

于 2024-09-29 08:31:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72566748/article/details/142625973

版权

从三方面考虑

一、常规性能调优

1）资源调优

①：Executor的数量和cpu核，可以增加并行度(比如4个executor，每个executor2个cpu核，可以并行执行8个task。当executor数量和cpu核增加的时候，并行度也会随之增加)。

②：Execuor的内存。可以让RDD缓存更多的数据，为shuffle提供更多的内存，从而减少落盘

2）RDD调优

RDD的持久化、尽早的使用filter操作

3）并行度的调节

官方的推荐是task的数量为cpu核的2~3倍。因为这样当一个task执行完之后，这个cpu会立即执行下一个task，资源可以得到充分的利用

二、算子优化

① mapPartition 代替map

数据量不是特别大的时候可以考虑用mappartition 代替map算子，效率比较高

② foreachPartition 代替 foreach

特别是往数据库中写的时候，foreach会每条数据都和数据库简历连接，浪费资源

③ fliter和coalesce算子的联合使用

因为过滤之后可能会导致分区间数据量相差比较大，可能造成数据倾斜

④ 使用reduceByKey代替groupByKey

reduceByKey是由预聚合的，在分组聚合处理中效率更高

三、shuffle优化

① 调节map端的缓冲区大小

默认是32k，可以减少磁盘IO的操作

② reduce端拉取数据缓冲区的大小

内存足够的前提下，可以适当调大，这样能够增加每次拉去的数据量，从而减少次数，减少网络IO，默认是48M

③ 调节reduce拉取失败重试的次数

默认是3次

④ 调节reduce端拉取失败重新拉取的时间间隔

默认是5s

⑤ 调节sortShuffle排序的阈值

有个参数设置，shuffle reduce task，默认是200。当确定不使用排序的情况下，可以适当将这个值调高

大数据领军人

关注

9
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。