- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 图解Spark的task是怎么分发到各节点上并执行的
假设此时已经构建好DAG划分好stage,接着就是要分发task了。当运行submitTask时,有如下的过程:上图可以看到,每次都会新建一个专门的taskManager,都运行ok后就会消失,并不是独立持续存在的一个角色。reviveOffers具体做什么的呢?看一下可以看到reciveOffer主要是做worker资源分配的。workerOffer列表一般需要做随机处理,避免一直分给同一个各机器上的CPU核数在分配的考虑范围之内。spark每次可能会有多个TaskSetManager
2020-07-06 00:27:17 2205
原创 图解spark的任务构建和提交流程
简述spark的任务运行流程先是在写spark代码的时候,背后做一些RDD的转换,写完后构建DAG,划分stage, 然后提交到资源管理器分配计算资源, 并在worker上执行。首先写spark代码时离不开对RDD的调用,那么:为什么需要RDD数据处理模型统一:RDD是1个数据结构, 能够获取数据的分区。不区分流式还是批式,只理解为1个数学模型。依赖划分原则:RDD之间通过窄依赖(仅1个依赖)和宽依赖(多依赖)进行关联。为什么要划分依赖?依赖数量不同,决定是否能在1个stage
2020-07-02 00:00:24 517
unp.h源码(CentOS上可无错编译)
2018-01-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人