pyspark --master yarn \
--deploy-mode client \
--conf spark.default.parallelism=240 \
--queue queue \
--driver-memory 2G \
--executor-memory 6G \
--executor-cores 4 \
--conf spark.shuffle.service.enabled=true \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.dynamicAllocation.minExecutors=1 \
--conf spark.dynamicAllocation.maxExecutors=n \
--num-executors 30
pyspark启动
最新推荐文章于 2024-06-30 07:15:00 发布
本文详细介绍了如何使用PySpark在YARN上进行部署,包括客户端模式的配置,如设置默认并行度、队列选择、驱动和执行器内存及核心数。同时,讨论了动态分配和shuffle服务的启用,以实现资源的有效利用和优化。
摘要由CSDN通过智能技术生成