spark的conf常用配置

.set(“spark.rdd.compress”, “true”) //rdd压缩
.set(“spark.sql.shuffle.partitions”, “200”) //shuffle分区(sql)
.set(“spark.default.parallelism”, “200”) //shuffle分区
.set(“spark.sql.auto.repartition”, “true”) //开启自动分区
.set(“spark.executor.userClassPathFirst”, “true”) //优先使用用户依赖包
.set(“spark.driver.userClassPathFirst”, “true”) //优先使用用户依赖包
.set(“mapreduce.job.user.classpath.first”, “true”) //优先使用用户依赖包
.set(“spark.yarn.user.classpath.first”, “true”) //优先使用用户依赖包
.set(“spark.sql.crossJoin.enabled”, “true”) //允许笛卡尔积
.set(“spark.driver.maxResultSize”, “6g”) //driver接受executor返回值的大小
.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”) //kyro序列化
.set(“spark.sql.autoBroadcastJoinThreshold”,“104857600”) //小于此值得join,使用广播变量
.set(“hive.exec.dynamic.partition”, “true”) // 支持hive动态分区
.set(“hive.exec.dynamic.partition.mode”, “nonstrict”) // 支持hive动态分区
.set(“spark.sql.parquet.writeLegacyFormat”, “true”) //由于 Hive 和 Spark 针对 Decimal 数据类型的实现不一致,配置为 ture,Spark 在写入 Parquet 时会使用同 Hive 相同的实现
.set(“spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation”,“true”) //解决saveAsTable后,重跑失败,报文件夹已存在的问题

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值