![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
加油妹妹
写的博客如果云里雾里,还有什么意义
展开
-
spark运行时的消息通信源码阅读(二)
概要(spark 版本为2.1.1)应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;执行单元(Executor)...原创 2018-12-26 20:53:56 · 268 阅读 · 0 评论 -
spark 启动消息通信基本过程源码阅读(一)
spark 启动消息通信基本过程spark启动过程主要是进程maste和worker之间的通信:1、worker节点向master节点发送注册消息2、注册成功后,返回注册成功消息或者失败消息。3、worker定时发送心跳给master。具体流程图如下所示:1、a)、当master启动后,随之启动各worker,worker启动时会创建通信环境RpcEnv...原创 2018-12-26 20:58:45 · 295 阅读 · 0 评论 -
spark 作业执行原理源码阅读(三)
概述作业(Job)调度阶段(stage)任务(Task)DAGScheduler:面向调度阶段的任务调节器,负责接收spark应用提交的作业,根据RDD的依赖关系(根据宽依赖划分)划分调度阶段,并提交stage给TaskScheduler。TaskScheduler:面向任务的调度器,接收DAGScheduler提交过来的stage,然后以stage划分后的结果,将Task分发...原创 2018-12-26 21:05:15 · 157 阅读 · 1 评论 -
spark 调度分析(四)
1. 概述job - stage -TaskSet - Task.spark调度中,最重要的就是DAGScheduler和TaskScheduler调度器:DAGScheduler负责任务的逻辑调度。TaskScheduler负责具体任务的调度执行。根据图1从整体上对Spark的作业和任务调度做了分析spark 的APP 进行各种转换操作,通过行动操作触发作业运行。根据RDD之间的D...原创 2019-08-23 07:12:29 · 177 阅读 · 0 评论 -
spark 容错HA(五)
spark 容错HA1. Executor 异常spark在各种运行模式中的集群管理器会为任务分配运行资源,在运行资源中启动Executor,由Executor是负责执行任务的,最终会把任务运行状态发送给Driver。首先看Executor启动过程:1)Master给APP分配资源2)在Worker中启动ExecutorRunner3)ExecutorRunner会启动一个线程向Dr...原创 2019-08-24 21:51:53 · 185 阅读 · 0 评论 -
spark 存储分析(六)
文章目录前言1. 整体架构2. RDD存储过程2.1 存储级别2.2 RDD存储调用2.3 RDD读数据过程2.3.1 本地读取数据2.3.2 远程读取:2.4 RDD写数据过程3 shuffle 存储过程3.1 shuffle的写操作3.2 Shuffle的读操作4 序列化和压缩4.1 序列化4.2 压缩(具体展开还需要查阅资料)5 共享变量(细节需要查阅资料)5.1 广播变量5.2 累加器前...原创 2019-09-01 22:41:52 · 347 阅读 · 0 评论