SparkCore 运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

最新推荐文章于 2024-04-22 09:33:31 发布

提灯寻梦在南国

最新推荐文章于 2024-04-22 09:33:31 发布

阅读量1.1k

点赞数

分类专栏：大数据 Spark 文章标签： DAG 宽依赖和窄依赖

本文链接：https://blog.csdn.net/weixin_38073885/article/details/84898678

版权

之前的Spark总结，我提到了Spark的学习主要分为四个部分：

1.Spark Core用于离线计算；
2.Spark SQL用于交互式查询
3.Spark Streaming用于实时流式计算
4.Spark MLlib用于机器学习
这一篇博客我来讲讲Spark内部的运行过程剖析，比较偏理论但是绝对值得你一看。

Spark中的专业术语

1.Application：基于Spark的用户程序，包含了driver program和集群上多个executor
Spark中只要有一个sparkcontext就是一个application；
启动一个spark-shell也是一个application，因为在启动spark-shell是就内置了一个sc(SparkContext的实例)
2.执行器（executor）:在Worker Node上为某Application启动一个进程，该进程负责运行任务，并且负责将数据在硬盘或者内存中；每个Application都有各自独立的executors;
3.Driver Program：Spark中的Driver即运行上述Application的main()函数并且创建 SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常用SparkContext代表Driver
4.Cluster Manager：在集群上获取资源的外部服务(例如standalone,Mesos,Yarn )
5.Worker Node 集群中任何可以运⾏行应⽤用代码的节点
6.Master,是个进程，主要是负责资源的调度和分配，还有集群的监控等等职责。
7.Worker,同样是个进程，主要负责两个，一个是用自己的内存存储RDD的某个或者某些partition;另一个是启动其他线程或进程，对RDD上的partition进行处理和计算。
8.Task：被送到某个executor上的工作单元
9.Job 包含很多任务的并⾏行计算，Spark中的一个action对应一个job，如：collect, count, saveAsTextFile;
用户提交的Job会提交给DAGScheduler,Job会被分解成Stage(TaskSet) DAG;
RDD的transformation只会记录对元数据的操作（map/filter），而不会真正执行，只有action触发时才会执行job;
10.Stage ⼀个Job会被拆分很多组任务，每组任务被称为一个Stage，也可称为 TaskSet(就像Mapreduce分map任务和reduce任务⼀一样)
一个stage的边界往往是从某个地方取数据开始（如：sc.readTextFile），在shuffle时（如join,reduceByKey等）终止；
一个job的结束（如：count、saveAsTextFile等）往往也是一个stage的边界；
有两种类型的stage:ShuffleMapStage和ResultStage
11.Task 被送到executor的工作单元;
在Spark中有两类Task：shuffleMap和ResultTask，第一类Task的输出时shuffle所需数据，

最低0.47元/天解锁文章

提灯寻梦在南国

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkCore 运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

之前的Spark总结，我提到了Spark的学习主要分为四个部分：1.Spark Core用于离线计算；2.Spark SQL用于交互式查询3.Spark Streaming用于实时流式计算4.Spark MLlib用于机器学习这一篇博客我来讲讲Spark内部的运行过程剖析，比较偏理论但是绝对值得你一看。spark中的专业术语1.Application：基于Spark的用户程...
复制链接

扫一扫