Spark调优的几个思想或者角度

最新推荐文章于 2024-04-29 21:08:01 发布

JADQ

最新推荐文章于 2024-04-29 21:08:01 发布

阅读量101

点赞数

分类专栏： Spark调优文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34080297/article/details/126874194

版权

Spark调优专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Spark调优的三个角度

Spark自身的性能红利
省数据处理、拖Shuffle操作
避免单机思维

一、Spark自身的性能红利

Tungsten钨丝计划

Java Unsafe API开辟堆外内存
- 内存占用估算更精确
- 不用反复执行垃圾回收

AQE (Adaptive Query Execution)

Spark3.0之前：编译时基于规则遍历AST优化逻辑计划

AQE：周期性动态调整前面的逻辑计划 spark.sql.adaptive.enabled = True

自动分区合并
- 自动合并比较小的分区，减少CPU调度开销
数据倾斜
- 自动加盐
Join策略调整
- 自动使用Broadcast Join

二、省数据处理、拖Shuffle操作

减少重复或者没必要的shuffle action,比如distinct
尽量避免或者向后移动shuffle，越靠后要处理的数据越少，落盘和分发越少

三、避免单机思维

Spark的配置项

Driver负责分布式调度，调优空间有限，围绕Executor展开配置。

硬件资源

硬件资源

CPU
- 并行度：数据分片数量
- 并行计算任务：数据并行计算数量
内存
- 配置项
- 堆内外平衡
  - （指针与偏移地址处理不定长数据）对于需要处理的数据集，如果数据模式比较扁平，而且字段多是定长数据类型，就更多地使用堆外内存。相反地，如果数据模式很复杂，嵌套结构或变长字段很多，就更多采用 JVM 堆内内存会更加稳妥。
磁盘
- 缓存密集还是计算密集（机器学习还是OLAP统计）
- 是否RDD缓存压缩spark.rdd.compress来序列化等，选择字节还是对象方式

Shuffle

落盘缓冲的次数spark.shuffle.file.buffer。减少IO

Spark SQL

AQE分区合并

AQE自动处理数据倾斜

JOIN策略调整

Shuffle Join to Broadcast Join

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark调优的几个思想或者角度

spark自身的性能红利、Shuffle操作、单机思维
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。