pyspark 运行程序相关参数 command line
spark-submit \
--name dp_main_spark-03 \
--master local[*] \
--driver-memory 80G \
--executor-memory 16G \
--conf spark.default.parallelism=500 \
--conf spark.shuffle.memoryFraction=0.3 \
dp_main_spark-03.py \
bm \
0.2 \
"/home/zzh/disk_2t/ais/zzh/20190623-test/ais201808/*" \
/home/zzh/disk_2t/ais/zzh/20190623-test/201808_compress_200m \
/home/zzh/disk_2t/ais/zzh/20190623-test/201808_compress_200m_errLog.txt
- spark-submit
- pyspark 运行需要的参数
- –master 指定主机名 spark://host:port, mesos://host:port,yarn or local (Default:local[*]) 只是为了在你的笔记本或者台式机上跑spark
- –driver-memory 80G driver进程使用的内存量
- –excutor-memory 16G 每个执行程序(分布式程序)要使用的内存量
- –conf spark.default.parallelism=500
- Default number of partitions in RDDs returned by transformations like join, reduceByKey, and parallelize when not set by user.
pyspark 运行程序相关参数 在程序中数据
spark = SparkSession.builder
.master(“local[8]”)
.config(“spark.sql.execution.arrow.enable”, “true”)
.config(“spark.executor.memory”, “3g”)
.config(“spark.driver.memory”, “10g”)
.config(“spark.local.dir”, “E:\spark-temp”)
.config(“spark.executor.heartbeatInterval”, “36000s”)
.config(“spark.network.timeout”, “50000s”)
.config(“spark.rpc.lookupTimeout”, “5000s”)
.config(“spark.shuffle.io.connectionTimeout”, “50000s”)
.appName(“data”)
.getOrCreate()
pyspark 运行程序相关参数 spark源文件里面设置
spark-env.sh
- SPARK_LOCAL_DIRS=/data/tmp 把临时文件引入到一个自定义的目录中去。
pyspark 程序书写完毕,在服务器上运行遇到的问题
pyspark no space left on device
- 提示磁盘空间不足,有可能是几个方面原因;
- 1.临时文件 所在目录 磁盘满了。 在 spark-env.sh 文件 SPARK_LOCAL_DIRS 参数定义;也可以在程序中定义当前程序的 spark 临时文件
- 2.spark 计算后的存储文件 目录 满了。
- 3.inode 磁盘的索引节点存储满了。
服务器数据文件分区数 设置太小
- 重新设置服务器的分区数