PySpark 运行程序参数详解以及常见服务器运行错误_pyspark driver-memory executor-memory-CSDN博客

本文链接：https://blog.csdn.net/qq_18617299/article/details/109431255

pyspark 运行程序相关参数 command line

	spark-submit \
	--name dp_main_spark-03 \
	--master local[*] \
	--driver-memory 80G \
	--executor-memory 16G \
	--conf spark.default.parallelism=500 \
	--conf spark.shuffle.memoryFraction=0.3 \
	dp_main_spark-03.py \
	bm \
	0.2 \
	"/home/zzh/disk_2t/ais/zzh/20190623-test/ais201808/*" \
	/home/zzh/disk_2t/ais/zzh/20190623-test/201808_compress_200m \
	/home/zzh/disk_2t/ais/zzh/20190623-test/201808_compress_200m_errLog.txt

spark-submit
pyspark 运行需要的参数
- –master 指定主机名 spark://host:port, mesos://host:port,yarn or local (Default:local[*]) 只是为了在你的笔记本或者台式机上跑spark
- –driver-memory 80G driver进程使用的内存量
- –excutor-memory 16G 每个执行程序（分布式程序）要使用的内存量
- –conf spark.default.parallelism=500
  - Default number of partitions in RDDs returned by transformations like join, reduceByKey, and parallelize when not set by user.

pyspark 运行程序相关参数在程序中数据

spark = SparkSession.builder
.master(“local[8]”)
.config(“spark.sql.execution.arrow.enable”, “true”)
.config(“spark.executor.memory”, “3g”)
.config(“spark.driver.memory”, “10g”)
.config(“spark.local.dir”, “E:\spark-temp”)
.config(“spark.executor.heartbeatInterval”, “36000s”)
.config(“spark.network.timeout”, “50000s”)
.config(“spark.rpc.lookupTimeout”, “5000s”)
.config(“spark.shuffle.io.connectionTimeout”, “50000s”)
.appName(“data”)
.getOrCreate()

pyspark 运行程序相关参数 spark源文件里面设置

spark-env.sh

SPARK_LOCAL_DIRS=/data/tmp 把临时文件引入到一个自定义的目录中去。

pyspark 程序书写完毕，在服务器上运行遇到的问题

pyspark no space left on device

提示磁盘空间不足，有可能是几个方面原因；
- 1.临时文件所在目录磁盘满了。在 spark-env.sh 文件 SPARK_LOCAL_DIRS 参数定义；也可以在程序中定义当前程序的 spark 临时文件
- 2.spark 计算后的存储文件目录满了。
- 3.inode 磁盘的索引节点存储满了。