spark优化实战

草鱼root

已于 2024-05-08 20:46:43 修改

阅读量518

点赞数 8

分类专栏： spark 文章标签： spark

于 2024-05-08 20:32:36 首次发布

本文链接：https://blog.csdn.net/qq_41138041/article/details/138585365

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

spark.sql.adaptive.enabled:true
spark.sql.adaptive.skewedJoin.enabled:true
spark.sql.adaptive.skewedPartitionMaxSplits:10
spark.sql.hive.convertMetastoreParquet:false

set spark.sql.adaptive.skewedJoin.enabled=true; --开启自动处理 Join 时数据倾斜
set spark.sql.adaptive.skewedPartitionMaxSplits=20; --Join 时数据倾斜最大切分Partition数
set spark.sql.adaptive.skewedPartitionRowCountThreshold=10000000; --按行数开启自动处理 Join 时数据倾斜阈值，1千万行
set spark.sql.adaptive.skewedPartitionSizeThreshold=134217728; --按数据大小开启自动处理 Join 时数据倾斜阈值，128MB
set spark.sql.mergeSmallFileSize=134217728; --合并小文件阈值，小于128MB –
set spark.sql.adaptive.enabled=true; --开启动态设置 Shuffle Partition
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=134217728; --每个Reducer数据量超过该阈值的时候会被拆分成多个并行
set spark.sql.adaptive.join.enabled=true; --开启自动调整执行计划，需开启spark.sql.adaptive.enabled=true
set spark.sql.adaptiveBroadcastJoinThreshold=134217728; --开启自动BroadcastJoin阈值，小于128MB

spark.sql.adaptive.enabled=true
spark.sql.adaptive.skewJoin.enabled=true
spark.sql.adaptive.skewJoin.enhance.enabled=true (通用倾斜算法，可处理更多场景)
spark.sql.adaptive.forceOptimizeSkewedJoin=true （允许插入额外shuffle，可处理更多场景）
spark.sql.optimizer.dynamicPartitionPruning.enabled=true 开启动态分区裁剪之后,过滤条件都会先执行不论是on 还是 where 还是主副表的条件都会执行

加上合并小文件参数:
spark.sql.mergeSmallFiles.threshold.avgSize=64MB
spark.sql.mergeSmallFiles.maxSizePerTask=128MB
spark.sql.mergeSmallFiles.enabled=true