2020年07月_DrawnBreak

12月 11月 07月 06月 05月 03月

原创图解Spark的task是怎么分发到各节点上并执行的

假设此时已经构建好DAG划分好stage，接着就是要分发task了。当运行submitTask时，有如下的过程：上图可以看到，每次都会新建一个专门的taskManager，都运行ok后就会消失，并不是独立持续存在的一个角色。reviveOffers具体做什么的呢？看一下可以看到reciveOffer主要是做worker资源分配的。workerOffer列表一般需要做随机处理，避免一直分给同一个各机器上的CPU核数在分配的考虑范围之内。spark每次可能会有多个TaskSetManager

2020-07-06 00:27:17 2205

原创图解spark的任务构建和提交流程

简述spark的任务运行流程先是在写spark代码的时候，背后做一些RDD的转换，写完后构建DAG，划分stage，然后提交到资源管理器分配计算资源，并在worker上执行。首先写spark代码时离不开对RDD的调用，那么：为什么需要RDD数据处理模型统一：RDD是1个数据结构，能够获取数据的分区。不区分流式还是批式，只理解为1个数学模型。依赖划分原则：RDD之间通过窄依赖(仅1个依赖)和宽依赖（多依赖）进行关联。为什么要划分依赖？依赖数量不同，决定是否能在1个stage

2020-07-02 00:00:24 517

unp.h源码（CentOS上可无错编译）

修改过一些带有编译错误问题的unp.h源码，可在CentOS的服务器上编译，不需要再修改。编译过程如下： tar -zxvf unpv13e.tar.gz rm -y unpv13e.tar.gz cd unpv13e cd lib make cd ../libfree make cd .. cp libunp.a /usr/lib cp lib/unp.h /usr/include cp config.h /usr/include 具体可参见： http://blog.csdn.net/a799581229/article/details/79085925

2018-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 图解Spark的task是怎么分发到各节点上并执行的

原创 图解spark的任务构建和提交流程

unp.h源码（CentOS上可无错编译）

空空如也

原创图解Spark的task是怎么分发到各节点上并执行的

原创图解spark的任务构建和提交流程