10.spark executor

spark executor

Executorspark任务(task)的执行单元,运行在worker上,但是不等同于worker,实际上它是一组计算资源(cpu核心、memory)的集合。一个worker上的memorycpu由多个executor共同分摊。

 

spark.executor.cores顾名思义这个参数是用来指定executorcpu内核个数,分配更多的内核意味着executor并发能力越强,能够同时执行更多的task

 

 

spark.cores.max 为一个application分配的最大cpu核心数如果没有设置这个值默认为spark.deploy.defaultCores

 

spark.executor.memory:配置executor内存大小

 


笔者在使用过程中总结如下规律:

  • executor个数 = spark.max.cores / spark.executor.cores,集群的executor个数由spark.max.coresspark.executor.cores共同决定,注意在standalonemesos coarse-grained模式 下cores不要大于对应节点的内核数
  • 要保证每个worker上启动的executor均衡。如果不均衡的话会造成数据倾斜,拉慢任务的整体速 度。在运行过程中一个stask对应一个partition,配置不均衡,会导致每个节点处理的任务量不一样,因此会产生短板效应。
  • 如果运行过程中发现GC时间变红(管理界面可以看到),应该适当调大spark.executor.memory


本文转自:这里

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
kylin.query.spark-conf.spark.executor.memoryOverhead=4g是Kylin中关于Spark执行器内存的参数设置。在Kylin中使用Spark作为计算引擎时,该参数用于设置每个Spark执行器在运行过程中可以使用的最大堆外内存。堆外内存是指位于堆以外的Java进程使用的内存空间,它通常用于存储直接内存,如Java垃圾收集器的元数据和Spark任务的执行过程中产生的临时数据。 通过将kylin.query.spark-conf.spark.executor.memoryOverhead设置为4g,可以为每个Spark执行器分配4GB的堆外内存空间。这样做的目的是提高Spark任务的执行效率和稳定性。由于Spark任务在执行过程中会产生大量的临时数据,如果没有足够的堆外内存空间进行存储和管理,可能会导致Spark任务频繁进行垃圾收集和内存回收,进而影响任务的性能和稳定性。 设置kylin.query.spark-conf.spark.executor.memoryOverhead=4g时需要考虑集群的可用内存大小和Spark任务的实际需求。如果集群的可用内存比较充足,并且Spark任务产生的临时数据较多,则可以适当增加该参数的值,以提高Spark任务的执行效率。反之,如果集群的可用内存有限或者Spark任务产生的临时数据较少,则可以减小该参数的值,以节省资源和提高任务的稳定性。 总之,kylin.query.spark-conf.spark.executor.memoryOverhead=4g是Kylin中关于Spark执行器内存的配置参数,它决定了每个Spark执行器可以使用的最大堆外内存空间大小,合理设置该参数可以提高Spark任务的执行效率和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值