SparkSql 常用参数配置

SparkSql 常用参数配置:

1、常用持久化:

RDD层面:

​ 持久化cache:内存

​ MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类;

​ 以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;

DFrame&DataSet持久化:

​ cache:默认Memory and Disk采用的序列化为特有编码器序列化,大大降低内存占用;

2、分区和参数控制

sparksql默认shuffle默认分区数200,参数spark.sql.shuffle.partitions,以hdfs为sink容易产生大量小文件;

解决方案:

  • 根据数据量及内存资源,使用coalesce或reparttion算子减少分区;
  • 合理利用cpu资源,一般情况设置分区=cpu核数 x executor数x 2~3 ,是资源满负载运行
  • 使用广播变量,在小表join大表时,将小表广播避免shuffle,广播阈值10m
3、广播join

spark.sql.autoBroadcastJoinThreshold=10MB,-1为关闭

api操作时,

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
当你在使用Spark SQL时,可以调整并发参数配置来优化性能。以下是一些常见的并发参数配置和调整建议: 1. spark.sql.shuffle.partitions: 这个参数控制着shuffle操作的并发度。默认情况下,它的值是200。你可以根据你的数据规模和集群配置来调整这个值。通常情况下,将它设置为核心数的2-3倍是一个不错的选择。 2. spark.sql.files.maxPartitionBytes: 这个参数控制着非shuffle操作(如读取文件)时每个分区的最大字节数。默认情况下,它的值是128MB。如果你的文件比较小,你可以将这个值调小一些,以增加并发度。 3. spark.sql.shuffle.file.buffer: 这个参数控制着shuffle操作写入磁盘时的缓冲区大小。默认情况下,它的值是32KB。如果你的shuffle操作非常频繁或者数据量很大,你可以适当增大这个值,以减少磁盘IO次数。 4. spark.sql.adaptive.enabled: 这个参数控制着自适应查询优化的开关。默认情况下,它的值是false。启用自适应查询优化可以根据运行时统计信息动态调整执行计划,从而提升性能。 你可以通过在SparkSession上调用相关方法来设置这些参数,例如: ``` spark.conf.set("spark.sql.shuffle.partitions", "200") spark.conf.set("spark.sql.files.maxPartitionBytes", "128M") spark.conf.set("spark.sql.shuffle.file.buffer", "32k") spark.conf.set("spark.sql.adaptive.enabled", "true") ``` 请根据你的具体需求和环境来调整这些参数,以获得最佳的性能表现。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值