【1】数据本地行存储,将存储与计算同节点部署
【2】存储格式选择列式存储,如Parquet,减少读IO量,压缩比高,减少存储空间。
【3】选择合理的Partition Key,防止数据倾斜或任务倾斜。
【4】对复用的RDD进行cache缓存操作
【5】尽可能避免shuffle,如:用reduceByKey代替groupByKey
【6】尽可能实用Spark SQL实现Spark计算,因为其内部自带优化器,可以自动优化程序。
Spark调优与学习笔记
最新推荐文章于 2024-01-04 07:50:51 发布