在进行Spark任务提交的时候,我们知道Spark提供了诸如num-executor、executor-memory等参数用来控制资源的申请和使用。但是你是否遇到过提交了任务后,当资源队列资源充足的时候,spark任务一直在吃内存的情况,貌似有点失控,这其实是“动态资源分配”在作怪。
那么什么是动态资源分配呢,简单来讲就是Spark根据资源的使用情况来申请资源,需要多少就申请多少,而不是一直独占配置的资源总量。在Spark中,是否采用动态资源分配主要靠spark.dynamicAllocation.enabled这个配置来决定。如果该值设置为true,则Spark任务会根据工作负载来衡量应该增加或减少executor的数量,或者当executor有空闲的时候,就会在空闲达到有一定时间之后释放掉。在CDH中,该参数默认为true,在开源版本中,该参数默认为false。与该参数配置相关的参如下:
spark.dynamicAllocation.enabled
是否开启动态资源配置,根据工作负载来衡量是否应该增加或减少executor,默认falsespark.dynamicAllocation.minExecutors
动态分配最小executor个数,在启动时就申请好的,默认0spark.dynamicAllocation.maxExecutors
动态分配最大executor个数,默认infinityspark.dynamicAllocation.initialExecutors
动态分配初始executor个数默认值=spark.dynamicAl