Spark 提交任务参数设置关于（线程，shuffle，序列化）

P("Struggler") ?

于 2023-05-03 18:33:19 发布

阅读量1k

点赞数

文章标签： spark jvm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38233104/article/details/130475625

版权

Good Journey 专栏收录该内容

124 篇文章 0 订阅

订阅专栏

–driver-java-options ‘-Xss6m’`

是在使用 Apache Spark 时，为了设置 Java 虚拟机（JVM）的堆栈大小而使用命令行选项。
-Xss 是 Java 虚拟机的一个选项，用于设置线程的堆栈大小。在这个命令行选项中，-Xss6m 表示将线程的堆栈大小设为 6MB。这个选项的作用是为了避免在运行 Spark 任务时出现堆栈溢出的错误。

–spark.default.parallelism=200

设置 Spark 默认的并行度为 200。并行度是指在 Spark中并行执行任务的线程数或分区数。通过设置并行度，可以提高 Spark 任务的执行效率。

–conf spark.shuffle.io.maxRetries=200

设置 Spark Shuffle 操作的最大重试次数为 200。Shuffle 是 Spark 中的一个重要操作，用于将数据从一个节点传输到另一个节点。通过设置大重试次数，可以提高 Shuffle 操作的可靠性。

–conf spark.shuffle.io.retryWait=500s

设置 Spark Shuffle 操作的重试等待时间为 500 秒。当 Shuffle 操作失败时，会进行重试，通过设置重试等待时间，可以控制重试的时间。

–conf spark.kryoserializer.buffer.max=512m

设置 Kryo 序列化器的最大缓冲区大小为 512MB。Kryo 是 Spark 中的一种高效的序列化器，通过设置缓冲区大小，可以提高序列化和反序列化的效率。

–conf spark.kryoserializer.buffer=512m

设置 Kryo 序列化器的缓冲区大小为 512MB。通过设置缓冲区大小，可以提高序列化和反序列化的效率。

–conf spark.sql.shuffle.partitions=200

设置 Spark SQL Shuffle 操作的分区数为 200。Shuffle 是 Spark SQL 中的一个重要操作，用于将数据从一个节点传输到另一个节点通过设置分区数，可以提高 Shuffle 操作的并行度，从而提高 Spark SQL 任务的执行效率。

P("Struggler") ?

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark 提交任务参数设置关于（线程，shuffle，序列化）

spark 提交任务时的参数设置关于线程，序列化，shuffle机制参数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

P("Struggler") ? 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。