stack overflow链接 总结: 1.spark.default.parallelism只对RDD有效,对sparksql(DataFrame、DataSet)无效2.spark.sql.shuffle.partitions对sparksql中的joins和aggregations有效,但其他的无效(对这种情况下,上述的两种配置都无效,我们应该怎么办呢?看第三点)3.我们可以使用repartition算子对dataframe进行重分区。