.set(“spark.rdd.compress”, “true”) //rdd压缩
.set(“spark.sql.shuffle.partitions”, “200”) //shuffle分区(sql)
.set(“spark.default.parallelism”, “200”) //shuffle分区
.set(“spark.sql.auto.repartition”, “true”) //开启自动分区
.set(“spark.executor.userClassPathFirst”, “true”) //优先使用用户依赖包
.set(“spark.driver.userClassPathFirst”, “true”) //优先使用用户依赖包
.set(“mapreduce.job.user.classpath.first”, “true”) //优先使用用户依赖包
.set(“spark.yarn.user.classpath.first”, “true”) //优先使用用户依赖包
.set(“spark.sql.crossJoin.enabled”, “true”) //允许笛卡尔积
.set(“spark.driver.maxResultSize”, “6g”) //driver接受executor返回值的大小
.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”) //kyro序列化
.set(“spark.sql.autoBroadcastJoinThreshold”,“104857600”) //小于此值得join,使用广播变量
.set(“hive.exec.dynamic.partition”, “true”) // 支持hive动态分区
.set(“hive.exec.dynamic.partition.mode”, “nonstrict”) // 支持hive动态分区
.set(“spark.sql.parquet.writeLegacyFormat”, “true”) //由于 Hive 和 Spark 针对 Decimal 数据类型的实现不一致,配置为 ture,Spark 在写入 Parquet 时会使用同 Hive 相同的实现
.set(“spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation”,“true”) //解决saveAsTable后,重跑失败,报文件夹已存在的问题
spark的conf常用配置
于 2020-12-22 16:02:54 首次发布