spark项目中发现从hive读取的数据,dataframe无法进行reparation的设置,非得转成rdd才可以???
后来经过查阅资料和测试,原来是submit中设置的参数问题:
--conf spark.sql.adaptive.enabled=true 谨慎使用
原因:
由于spark.sql.adaptive.enabled设置成true就是开启动态分区了,自定义分区数将不管用;
我们设置成 false 后自定义分区数就管用了!!!
相关参数:
- spark.sql.adaptive.enabled; // 是否开启调整partition功能,如果开启,spark.sql.shuffle.partitions设置的partition可能会被合并到一个reducer里运行
- spark.sql.adaptive.shuffle.targetPostShuffleInputSize; //开启spark.sql.adaptive.enabled后,两个partition的和低于该阈值会合并到一个reducer
- spark.sql.adaptive.minNumPostShufflePartitions; // 开启spark.sql.adaptive.enabled后,最小的分区
相关资料: