SparkCore 运行过程剖析(基本运行流程, DAG,Lineage(血缘关系) 宽依赖和窄依赖)

之前的Spark总结,我提到了Spark的学习主要分为四个部分:

  • 1.Spark Core用于离线计算;
  • 2.Spark SQL用于交互式查询
  • 3.Spark Streaming用于实时流式计算
  • 4.Spark MLlib用于机器学习
    这一篇博客我来讲讲Spark内部的运行过程剖析,比较偏理论 但是绝对值得你一看。

Spark中的专业术语

  • 1.Application: 基于Spark的用户程序,包含了driver program和集群上多个executor
    Spark中只要有一个sparkcontext就是一个application
    启动一个spark-shell也是一个application,因为在启动spark-shell是就内置了一个sc(SparkContext的实例)
  • 2.执行器(executor):在Worker Node上为某Application启动一个进程,该进程负责运行任务,并且负责将数据在硬盘或者内存中;每个Application都有各自独立的executors;
  • 3.Driver Program:Spark中的Driver即运行上述Application的main()函数并且创建 SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等;当Executor部分运行完毕后,Driver负责将SparkContext关闭。通常用SparkContext代表Driver
  • 4.Cluster Manager: 在集群上获取资源的外部服务(例如standalone,Mesos,Yarn )
  • 5.Worker Node 集群中任何可以运⾏行应⽤用代码的节点
  • 6.Master,是个进程,主要是负责资源的调度和分配,还有集群的监控等等职责。
  • 7.Worker,同样是个进程,主要负责两个,一个是用自己的内存存储RDD的某个或者某些partition;另一个是启动其他线程或进程,对RDD上的partition进行处理和计算。
  • 8.Task: 被送到某个executor上的工作单元
  • 9.Job 包含很多任务的并⾏行计算,Spark中的一个action对应一个job,如:collect, count, saveAsTextFile;
    用户提交的Job会提交给DAGScheduler,Job会被分解成Stage(TaskSet) DAG;
    RDD的transformation只会记录对元数据的操作(map/filter),而不会真正执行,只有action触发时才会执行job;
  • 10.Stage ⼀个Job会被拆分很多组任务,每组任务被称为一个Stage,也可称为 TaskSet(就像Mapreduce分map任务和reduce任务⼀一样)
    一个stage的边界往往是从某个地方取数据开始(如:sc.readTextFile),在shuffle时(如join,reduceByKey等)终止;
    一个job的结束(如:count、saveAsTextFile等)往往也是一个stage的边界;
    有两种类型的stage:ShuffleMapStage和ResultStage
  • 11.Task 被送到executor的工作单元;
    在Spark中有两类Task:shuffleMap和ResultTask,第一类Task的输出时shuffle所需数据,
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值