SparkSql 常用参数配置:
1、常用持久化:
RDD层面:
持久化cache:内存
MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类;
以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;
DFrame&DataSet持久化:
cache:默认Memory and Disk采用的序列化为特有编码器序列化,大大降低内存占用;
2、分区和参数控制
sparksql默认shuffle默认分区数200,参数spark.sql.shuffle.partitions,以hdfs为sink容易产生大量小文件;
解决方案:
- 根据数据量及内存资源,使用coalesce或reparttion算子减少分区;
- 合理利用cpu资源,一般情况设置分区=cpu核数 x executor数x 2~3 ,是资源满负载运行
- 使用广播变量,在小表join大表时,将小表广播避免shuffle,广播阈值10m
3、广播join
spark.sql.autoBroadcastJoinThreshold=10MB,-1为关闭
api操作时,