Spark性能优化实战总结

fir_dameng

已于 2022-11-12 15:16:25 修改

阅读量1.2k

点赞数

分类专栏： Spark 文章标签：大数据 Spark3.x Spark sql 性能优化参数调优

于 2022-11-12 14:25:10 首次发布

本文链接：https://blog.csdn.net/u014034497/article/details/127819879

版权

1、成本考虑

重要且紧急的，优先级高
重要不紧急，等人力空闲再优化

2、优化方向

2.1、参数优化（优先）

2.1.1 读取相关

// 使用scan hive方式读取hive表时，调小maxsize，可增大读取的task任务数
spark.hadoop.mapreduce.input.fileinputformat.split.maxsize  67108864
spark.hadoop.mapreduce.input.fileinputformat.split.minsize 1

2.1.2 driver端相关

// yarn cluster模式下，如果task任务数较多，增大driver的内存和核数，有利于减轻driver压力
spark.driver.memory 8G
spark.driver.cores 4

2.1.3 使用广播变量消除join

// 调大广播变量为50M, 使原本join变成走广播变量方式
spark.sql.autoBroadcastJoinThreshold = 52,428,800

2.1.4 增大executor内存

// 如果发现executor的存在spill 到内存，磁盘,可增大此参数
spark.executor.memory = xxx

2.2

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fir_dameng

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark性能优化实战总结

如果多表join,存在重复逻辑，可以使用group by + max减少join。hive sql时代容易有使用临时表，存储下中间数据，避免内存占用过大。但spark sql时代，可以消除临时表，减少多余stage，减少耗时。
复制链接

扫一扫