大数据开发-Spark-一文理解Spark中的Stage,Executor,Driver...

本文从Spark的运行机制出发,通过WordCount案例深入解析Spark中的Stage、Executor、Driver等核心概念。了解Spark应用程序如何在分布式集群上执行,以及Job、Stage、Task的划分和Executor的工作原理。
摘要由CSDN通过智能技术生成

1.引言吧

阿西吧,对于Spark新手来说,首先对于Spark的运行机制不了解,往往跟你交流的时候,互相都不知道在说什么,比如部署模式和运行模式,可能都混为一谈,对于有一定开发经验的老手,即使知道运行机制,可能在表述上,对Spark的各种术语也不是很懂,因此理解Spark术语,是Spark开发者之间沟通的必要之路,本文从Spark的运行机制开始,到WordCount案例来理解Spark中的各种术语。

2.Spark的运行机制

首先拿官网的一张图,来说明,其是分布式集群上spark应用程序的一般执行框架。主要由sparkcontext(spark上下文)、cluster manager(资源管理器)和▪executor(单个节点的执行进程)。其中cluster manager负责整个集群的统一资源管理。executor是应用执行的主要进程,内部含有多个task线程以及内存空间。

file Spark的主要运行流程如下:

  1. 应用程序在使用spark-submit提交后,根据提交时的参数设置(deploy mode)在相应位置初始化sparkcontext,即spark的运行环境,并创建DAG Scheduler和Task Scheduer,Driver根据应用程序执行代码,将整个程序根据action算子划分成多个job,每个job内部构建DAG图,DAG Scheduler将DAG图划分为多个st

kylin.query.spark-conf.spark.executor.memoryOverhead=4g是Kylin关于Spark执行器内存的参数设置。在Kylin使用Spark作为计算引擎时,该参数用于设置每个Spark执行器在运行过程可以使用的最大堆外内存。堆外内存是指位于堆以外的Java进程使用的内存空间,它通常用于存储直接内存,如Java垃圾收集器的元数据Spark任务的执行过程产生的临时数据。 通过将kylin.query.spark-conf.spark.executor.memoryOverhead设置为4g,可以为每个Spark执行器分配4GB的堆外内存空间。这样做的目的是提高Spark任务的执行效率和稳定性。由于Spark任务在执行过程会产生大量的临时数据,如果没有足够的堆外内存空间进行存储和管理,可能会导致Spark任务频繁进行垃圾收集和内存回收,进而影响任务的性能和稳定性。 设置kylin.query.spark-conf.spark.executor.memoryOverhead=4g时需要考虑集群的可用内存大小和Spark任务的实际需求。如果集群的可用内存比较充足,并且Spark任务产生的临时数据较多,则可以适当增加该参数的值,以提高Spark任务的执行效率。反之,如果集群的可用内存有限或者Spark任务产生的临时数据较少,则可以减小该参数的值,以节省资源和提高任务的稳定性。 总之,kylin.query.spark-conf.spark.executor.memoryOverhead=4g是Kylin关于Spark执行器内存的配置参数,它决定了每个Spark执行器可以使用的最大堆外内存空间大小,合理设置该参数可以提高Spark任务的执行效率和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值