spark
不搬砖的程序员不是好程序员
这个作者很懒,什么都没留下…
展开
-
spark中job,stage,task之间的关系
1.什么是jobJob简单讲就是提交给spark的任务。2.什么是stageStage是每一个job处理过程要分为的几个阶段。3什么是taskTask是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。3.Job和stage和task之间有什么关系Job----> 一个或多个stage--->...转载 2019-11-20 20:12:16 · 349 阅读 · 0 评论 -
Spark 分区(Partition)的认识、理解和应用
一、什么是分区以及为什么要分区?Spark RDD 是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。图一:数据如何被分区并存储到各个结点图二:RDD、Partition以及task的关...转载 2019-11-20 19:59:04 · 363 阅读 · 1 评论 -
Apache Spark 统一内存管理模型详解
本文将对Spark的内存管理模型进行分析,下面的分析全部是基于 ApacheSpark2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析,如对之前的静态内存管理感兴趣,请参阅网上其他文章。我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常...转载 2019-11-20 14:44:05 · 139 阅读 · 0 评论 -
Ambari spark 开启动态资源分配
这几天研究资源分配的时候踩了不少坑,先做以下总结:1.修改每台NodeManager上的yarn-site.xml:##修改<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle,spark_shuffle</value><...原创 2019-11-20 14:07:25 · 805 阅读 · 0 评论 -
yarn-cluster和yarn-client模式剖析
一般yarn-client用于测试环境调试程序;yarn-cluster用于生产环境。看完下面的剖析就明白为什么。一、yarn-cluster与standalone模式不同,yarn-cluster是基于yarn集群,yarn集群上有ResourceManager(RM)和NodeManager(NM)。1、发送请求到RM,请求启动AM2、RM会分配container,在某...转载 2019-11-20 11:14:06 · 176 阅读 · 0 评论 -
spark spark.shuffle.service.enabled
操作场景Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffle数据。当Executor进程任务过重,导致GC而不能为其他Executor提供shuffle数据时,会影响任务运行。External shuffle Service是长期存在于NodeManager进程中的一个辅助服务。通过该服务...转载 2019-11-19 19:58:20 · 5654 阅读 · 1 评论