Spark 提交任务参数设置关于(线程,shuffle,序列化)

–driver-java-options ‘-Xss6m’`

是在使用 Apache Spark 时,为了设置 Java 虚拟机(JVM)的堆栈大小而使用命令行选项。
-Xss 是 Java 虚拟机的一个选项,用于设置线程的堆栈大小。在这个命令行选项中,-Xss6m 表示将线程的堆栈大小设为 6MB。这个选项的作用是为了避免在运行 Spark 任务时出现堆栈溢出的错误。

–spark.default.parallelism=200

设置 Spark 默认的并行度为 200。并行度是指在 Spark中并行执行任务的线程数或分区数。通过设置并行度,可以提高 Spark 任务的执行效率。

–conf spark.shuffle.io.maxRetries=200

设置 Spark Shuffle 操作的最大重试次数为 200。Shuffle 是 Spark 中的一个重要操作,用于将数据从一个节点传输到另一个节点。通过设置大重试次数,可以提高 Shuffle 操作的可靠性。

–conf spark.shuffle.io.retryWait=500s

设置 Spark Shuffle 操作的重试等待时间为 500 秒。当 Shuffle 操作失败时,会进行重试,通过设置重试等待时间,可以控制重试的时间。

–conf spark.kryoserializer.buffer.max=512m

设置 Kryo 序列化器的最大缓冲区大小为 512MB。Kryo 是 Spark 中的一种高效的序列化器,通过设置缓冲区大小,可以提高序列化和反序列化的效率。

–conf spark.kryoserializer.buffer=512m

设置 Kryo 序列化器的缓冲区大小为 512MB。通过设置缓冲区大小,可以提高序列化和反序列化的效率。

–conf spark.sql.shuffle.partitions=200

设置 Spark SQL Shuffle 操作的分区数为 200。Shuffle 是 Spark SQL 中的一个重要操作,用于将数据从一个节点传输到另一个节点通过设置分区数,可以提高 Shuffle 操作的并行度,从而提高 Spark SQL 任务的执行效率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

P("Struggler") ?

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值