从三方面考虑
一、常规性能调优
1)资源调优
①:Executor的数量和cpu核,可以增加并行度(比如4个executor,每个executor2个cpu核,可以并行执行8个task。当executor数量和cpu核增加的时候,并行度也会随之增加)。
②:Execuor的内存。可以让RDD缓存更多的数据,为shuffle提供更多的内存,从而减少落盘
2)RDD调优
RDD的持久化、尽早的使用filter操作
3)并行度的调节
官方的推荐是task的数量为cpu核的2~3倍。因为这样当一个task执行完之后,这个cpu会立即执行下一个task,资源可以得到充分的利用
二、算子优化
① mapPartition 代替map
数据量不是特别大的时候可以考虑用mappartition 代替map算子,效率比较高
② foreachPartition 代替 foreach
特别是往数据库中写的时候,foreach会每条数据都和数据库简历连接,浪费资源
③ fliter和coalesce算子的联合使用
因为过滤之后可能会导致分区间数据量相差比较大,可能造成数据倾斜
④ 使用reduceByKey代替groupByKey
reduceByKey是由预聚合的,在分组聚合处理中效率更高
三、shuffle优化
① 调节map端的缓冲区大小
默认是32k,可以减少磁盘IO的操作
② reduce端拉取数据缓冲区的大小
内存足够的前提下,可以适当调大,这样能够增加每次拉去的数据量,从而减少次数,减少网络IO,默认是48M
③ 调节reduce拉取失败重试的次数
默认是3次
④ 调节reduce端拉取失败重新拉取的时间间隔
默认是5s
⑤ 调节sortShuffle排序的阈值
有个参数设置,shuffle reduce task,默认是200。当确定不使用排序的情况下,可以适当将这个值调高