Spark的一些配置总结

最新推荐文章于 2024-03-21 21:57:52 发布

礼彬fly

最新推荐文章于 2024-03-21 21:57:52 发布

阅读量1.5w

点赞数

分类专栏： Bigdatda-Spark

本文链接：https://blog.csdn.net/baolibin528/article/details/54406540

版权

Bigdatda-Spark 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

Spark的一些配置总结

配置总结：
集群内存总量：

(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)

-----------------------------------------------------------------------------------

参数调优建议：每个Executor进程的内存设置4G~8G较为合适。

参数调优建议：Executor的CPU core数量设置为2~4个较为合适。
配置项 spark.kryoserializer.buffer.max,spark1.5.1默认值大小为64m，测试可以根据序列化对象大小确定上界值。
配置项 spark.yarn.executor.memoryOverhead，spark1.5.1默认值为executorMemory * 0.10, with minimum of 384,本次测试采用executorMemory * 0.20。
SPARK_EXECUTOR_MEMORY < SPARK_DRIVER_MEMORY< yarn集群中每个nodemanager内存大小。
如果需要使用collect算子将RDD的数据全部拉取到Driver上进行处理，那么必须确保Driver的内存足够大，否则会出现OOM内存溢出的问题。

-----------------------------------------------------------------------------------

一个Executor对应一个JVM进程。从Spark的角度看，Executor占用的内存分为两部分：ExecutorMemory和MemoryOverhead

1、 ExecutorMemory为JVM进程的Java堆区域。大小通过属性spark.executor.memory设置。用于缓存RDD数据的memoryStore位于这一区域。一个Executor用于存储RDD的空间=(ExecutorMemory– MEMORY_USED_BY_RUNTIME) * spark.storage.memoryFraction *spark.storage.safetyFraction 参数说明：
spark.storage.memoryFraction该参数用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6。也就是说，默认Executor 60%的内存，可以用来保存持久化的RDD数据。
spark.storage.safetyFraction：Spark1.5.1进程的默认堆空间是1g，为了安全考虑同时避免OOM,Spark只允许利用90%的堆空间，spark中使用spark.storage.safetyFraction用来配置该值（默认是0.9).
(spark.shuffle.memoryFraction该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能够使用的Executor内存的比例，默认是0.2。)
2、 emoryOverhead是JVM进程中除Java堆以外占用的空间大小，包括方法区（永久代）、Java虚拟机栈、本地方法栈、JVM进程本身所用的内存、直接内存（Direct Memory）等。通过spark.yarn.executor.memoryOverhead设置，单位MB。如果Java堆或者永久代的内存不足，则会产生各种OOM异常，executor会被结束。在Java堆以外的JVM进程内存占用较多的情况下，应该将MemoryOverhead设置为一个足够大的值，以防JVM进程因实际占用的内存超标而被kill。
当在YARN上运行Spark作业，每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。同样，实际运行过程中ExecutorMemory+MemoryOverhead之和（JVM进程总内存）超过container的容量。YARN会直接杀死container。

-----------------------------------------------------------------------------------

Spark对Executor和Driver额外添加堆内存大小：

Executor端：由spark.yarn.executor.memoryOverhead设置，spark1.5.1默认值executorMemory * 0.10与384的最大值。
Driver端：由spark.yarn.driver.memoryOverhead设置，spark1.5.1默认值driverMemory * 0.10与384的最大值。

-----------------------------------------------------------------------------------
关于Spark On YARN相关的配置参数，关于内存分配情况的几个相关的参数： spark1.5.1
spark.driver.memory ：默认值1g
spark.executor.memory ：默认值1g
spark.yarn.am.memory ：默认值512m
spark.yarn.executor.memoryOverhead ：默认值为executorMemory * 0.10, with minimum of 384
spark.yarn.driver.memoryOverhead ：默认值为driverMemory * 0.10, with minimum of 384
spark.yarn.am.memoryOverhead ：默认值为 AM memory * 0.10, with minimum of 384

官方配置文档：
http://spark.apache.org/docs/1.5.1/configuration.html
http://spark.apache.org/docs/1.5.1/running-on-yarn.html

-----------------------------------------------------------------------------------
一个例子：

--num-executors 2 \
--executor-memory 2g \
--executor-cores 4 \
--driver-memory 2g \
--conf spark.kryoserializer.buffer.max=1024 \
--conf spark.yarn.executor.memoryOverhead=2048 \

礼彬fly

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark的一些配置总结

Spark的一些配置总结配置总结：集群内存总量：(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)参数调优建议：每个Executor进程的内存设置4G~8G较为合适。参数调优建
复制链接

扫一扫