Spark调优 — 个人小总结

从三方面考虑

一、常规性能调优

1)资源调优

        ①:Executor的数量和cpu核,可以增加并行度(比如4个executor,每个executor2个cpu核,可以并行执行8个task。当executor数量和cpu核增加的时候,并行度也会随之增加)。

        ②:Execuor的内存。可以让RDD缓存更多的数据,为shuffle提供更多的内存,从而减少落盘

2)RDD调优

        RDD的持久化、尽早的使用filter操作

3)并行度的调节

        官方的推荐是task的数量为cpu核的2~3倍。因为这样当一个task执行完之后,这个cpu会立即执行下一个task,资源可以得到充分的利用

 

二、算子优化

① mapPartition 代替map   

        数据量不是特别大的时候可以考虑用mappartition 代替map算子,效率比较高

② foreachPartition 代替 foreach

        特别是往数据库中写的时候,foreach会每条数据都和数据库简历连接,浪费资源

③ fliter和coalesce算子的联合使用

        因为过滤之后可能会导致分区间数据量相差比较大,可能造成数据倾斜

④ 使用reduceByKey代替groupByKey

        reduceByKey是由预聚合的,在分组聚合处理中效率更高

 

三、shuffle优化

① 调节map端的缓冲区大小

        默认是32k,可以减少磁盘IO的操作

② reduce端拉取数据缓冲区的大小

        内存足够的前提下,可以适当调大,这样能够增加每次拉去的数据量,从而减少次数,减少网络IO,默认是48M

③ 调节reduce拉取失败重试的次数

        默认是3次

④ 调节reduce端拉取失败重新拉取的时间间隔

        默认是5s

⑤ 调节sortShuffle排序的阈值

        有个参数设置,shuffle reduce task,默认是200。当确定不使用排序的情况下,可以适当将这个值调高

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值