Spark提交作业参数以及注意事项（高频面试题）

最新推荐文章于 2023-07-30 07:17:32 发布

mischen520

最新推荐文章于 2023-07-30 07:17:32 发布

阅读量1.5k

点赞数

分类专栏： Spark 大数据面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miachen520/article/details/118538647

版权

Spark 同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

大数据面试

10 篇文章 2 订阅

订阅专栏

1）在提交任务时的几个重要参数

executor-cores —— 每个executor使用的内核数，默认为1，官方建议2-5个

num-executors —— 启动executors的数量，默认为2

executor-memory —— executor内存大小，默认1G

driver-cores —— driver使用内核数，默认为1

driver-memory —— driver内存大小，默认512M

2）边给一个提交任务的样式

spark-submit \

--master local[5] \

--driver-cores 2 \

--driver-memory 8g \

--executor-cores 4 \

--num-executors 10 \

--executor-memory 8g \

--class PackageName.ClassName XXXX.jar \

--name "Spark Job Name" \

InputPath \

OutputPath

几个参数的常规设置
executor_cores*num_executors
表示的是能够并行执行Task的数目
不宜太小或太大！一般不超过总队列 cores 的 25%，比如队列总 cores 400，最大不要超过100，最小不建议低于 40，除非日志量很小。

executor_cores
不宜为1！否则 work 进程中线程数过少，一般 2~4 为宜。

executor_memory
一般 6~10g 为宜，最大不超过20G，否则会导致GC代价过高，或资源浪费严重。

driver-memory
driver 不做任何计算和存储，只是下发任务与yarn资源管理器和task交互，除非你是 spark-shell，否则一般 1-2g

常规注意事项
预处理数据，丢掉一些不必要的数据
增加Task的数量
过滤掉一些容易导致发生倾斜的key
避免创建重复的RDD
尽可能复用一个RDD
对多次使用的RDD进行持久化
尽量避免使用shuffle算子
在要使用groupByKey算子的时候,尽量用reduceByKey或者aggregateByKey算子替代.因为调用groupByKey时候,按照相同的key进行分组,形成RDD[key,Iterable[value]]的形式,此时所有的键值对都将被重新洗牌,移动,对网络数据传输造成理论上的最大影响.
使用高性能的算子

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark提交作业参数以及注意事项（高频面试题）

1）在提交任务时的几个重要参数executor-cores —— 每个executor使用的内核数，默认为1，官方建议2-5个num-executors —— 启动executors的数量，默认为2executor-memory —— executor内存大小，默认1Gdriver-cores —— driver使用内核数，默认为1driver-memory —— driver内存大小，默认512M2）边给一个提交任务的样式spark-submit \--master l..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。