spark
加油妹妹
写的博客如果云里雾里,还有什么意义
展开
-
spark运行时的消息通信源码阅读(二)
概要 (spark 版本为2.1.1) 应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; 驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program; 执行单元(Executor)...原创 2018-12-26 20:53:56 · 272 阅读 · 0 评论 -
spark 启动消息通信基本过程源码阅读(一)
spark 启动消息通信基本过程 spark启动过程主要是进程maste和worker之间的通信: 1、worker节点向master节点发送注册消息 2、注册成功后,返回注册成功消息或者失败消息。 3、worker定时发送心跳给master。 具体流程图如下所示: 1、 a)、当master启动后,随之启动各worker,worker启动时会创建通信环境RpcEnv...原创 2018-12-26 20:58:45 · 301 阅读 · 0 评论 -
spark 作业执行原理源码阅读(三)
概述 作业(Job) 调度阶段(stage) 任务(Task) DAGScheduler:面向调度阶段的任务调节器,负责接收spark应用提交的作业,根据RDD的依赖关系(根据宽依赖划分)划分调度阶段,并提交stage给TaskScheduler。 TaskScheduler:面向任务的调度器,接收DAGScheduler提交过来的stage,然后以stage划分后的结果,将Task分发...原创 2018-12-26 21:05:15 · 165 阅读 · 1 评论 -
spark 调度分析(四)
1. 概述 job - stage -TaskSet - Task. spark调度中,最重要的就是DAGScheduler和TaskScheduler调度器: DAGScheduler负责任务的逻辑调度。 TaskScheduler负责具体任务的调度执行。 根据图1从整体上对Spark的作业和任务调度做了分析 spark 的APP 进行各种转换操作,通过行动操作触发作业运行。根据RDD之间的D...原创 2019-08-23 07:12:29 · 185 阅读 · 0 评论 -
spark 容错HA(五)
spark 容错HA 1. Executor 异常 spark在各种运行模式中的集群管理器会为任务分配运行资源,在运行资源中启动Executor,由Executor是负责执行任务的,最终会把任务运行状态发送给Driver。 首先看Executor启动过程: 1)Master给APP分配资源 2)在Worker中启动ExecutorRunner 3)ExecutorRunner会启动一个线程向Dr...原创 2019-08-24 21:51:53 · 192 阅读 · 0 评论 -
spark 存储分析(六)
文章目录前言1. 整体架构2. RDD存储过程2.1 存储级别2.2 RDD存储调用2.3 RDD读数据过程2.3.1 本地读取数据2.3.2 远程读取:2.4 RDD写数据过程3 shuffle 存储过程3.1 shuffle的写操作3.2 Shuffle的读操作4 序列化和压缩4.1 序列化4.2 压缩(具体展开还需要查阅资料)5 共享变量(细节需要查阅资料)5.1 广播变量5.2 累加器 前...原创 2019-09-01 22:41:52 · 358 阅读 · 0 评论