SparkSql 常用参数配置:
1、常用持久化:
RDD层面:
持久化cache:内存
MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类;
以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;
DFrame&DataSet持久化:
cache:默认Memory and Disk采用的序列化为特有编码器序列化,大大降低内存占用;
2、分区和参数控制
sparksql默认shuffle默认分区数200,参数spark.sql.shuffle.partitions,以hdfs为sink容易产生大量小文件;
解决方案:
- 根据数据量及内存资源,使用coalesce或reparttion算子减少分区;
- 合理利用cpu资源,一般情况设置分区=cpu核数 x executor数x 2~3 ,是资源满负载运行
- 使用广播变量,在小表join大表时,将小表广播避免shuffle,广播阈值10m
3、广播join
spark.sql.autoBroadcastJoinThreshold=10MB,-1为关闭
api操作时,

本文详细介绍了SparkSQL的性能优化策略,包括常用持久化方式、分区与参数控制、广播JOIN、数据倾斜处理、SmebJoin、堆外内存使用、AQE动态优化、Spark3.0的DPP动态分区裁剪以及3.0版本的 Hint增强。通过调整这些参数和采用相应策略,可以有效提升SparkSQL查询的效率和性能。
最低0.47元/天 解锁文章
247

被折叠的 条评论
为什么被折叠?



