3、Spark运行原理解析一

一、Spark核心API

----------------------------------------------------------------------------------------------

[SparkContext]:连接到Spark集群,入口点

[HadoopRDD]:读取Hadoop上面的数据

[RDD]:弹性分布式数据集

              不可变的数据分区集合

              基本操作(map, filter, persist)

              分区列表                                     //数据

              应用给每个分区的函数列表         //行为

               到其他RDD的依赖列表

              针对KV类型的RDD分区类,可选

               首选位置列表,可选

发现:调用TextFile()方法,返回的是一个HadoopFile文件

 

[DAGScheduler]:高级调度器,实现按照Stage(由Shuffle制造)层面的调度

[TaskScheduler]:任务调度器,实现按照Task层面的调度

专业术语:

        [Application】:用户提交的应用,每个应用对应一个spark context,包含多个job

      【Job】: 由actoin(执行操作)来划分,job是阶段stage的集合,提交给调度的顶层的工作项目

      【stage】: 由shuffle来划分,stage是Task的集合,计算job中的中间结果,同一RDD的每个分区都会应用相同的计算函数。

        [Task】:单独的工作单元,每个发送给一台主机。一台节点机器上面可以有多个Task,数量一般由core决定

 

二、Actoin发生之后,Spark的具体执行流程

-----------------------------------------------------------------------------------

总览:客户端创建sc对象,调用sc的textFile方法以创建系列HadoopRDD对象,将上面的RDD对象返回给客户端,由客户端触发

           执行函数

 

调用执行函数collect之后执行细节 

 

 

三、Spark提交流程展示

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值