Azure平台的spark默认是cluster模式。
AWS平台的spark默认是client模式。如果要改为cluster模式。方法1:建立集群的时候就修改为cluster。 方法2:加入参数"spark.submit.deployMode" : "cluster"
此外,SparkSQL的一些参数,提升性能还是可以的
"spark.submit.deployMode" : "cluster",
"spark.dynamicAllocation.enabled" : false,
"spark.yarn.maxAppAttempts" : 1,
"spark.sql.sources.parallelPartitionDiscovery.parallelism" : 28,
"spark.sql.files.maxPartitionBytes" : 1073741824,
"spark.sql.files.openCostInBytes" : 1048576,
"spark.sql.shuffle.partitions" : 28
"spark.dynamicAllocation.enabled" : false, 注(此参数分情况。yarn动态分配资源在任务使用资源,或资源不固定的情况下可以使用。但是在资源固定的情况下,自己手动指定资源分配比较合理)
转载一篇文章,介绍spark参数的:Spark性能调优1-测试记录
https://blog.csdn.net/xwc35047/article/details/71038581