自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DrawnBreak

接受现实的基础上,向未来进发

  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 图解Spark的task是怎么分发到各节点上并执行的

假设此时已经构建好DAG划分好stage,接着就是要分发task了。当运行submitTask时,有如下的过程:上图可以看到,每次都会新建一个专门的taskManager,都运行ok后就会消失,并不是独立持续存在的一个角色。reviveOffers具体做什么的呢?看一下可以看到reciveOffer主要是做worker资源分配的。workerOffer列表一般需要做随机处理,避免一直分给同一个各机器上的CPU核数在分配的考虑范围之内。spark每次可能会有多个TaskSetManager

2020-07-06 00:27:17 2205

原创 图解spark的任务构建和提交流程

简述spark的任务运行流程先是在写spark代码的时候,背后做一些RDD的转换,写完后构建DAG,划分stage, 然后提交到资源管理器分配计算资源, 并在worker上执行。首先写spark代码时离不开对RDD的调用,那么:为什么需要RDD数据处理模型统一:RDD是1个数据结构, 能够获取数据的分区。不区分流式还是批式,只理解为1个数学模型。依赖划分原则:RDD之间通过窄依赖(仅1个依赖)和宽依赖(多依赖)进行关联。为什么要划分依赖?依赖数量不同,决定是否能在1个stage

2020-07-02 00:00:24 517

unp.h源码(CentOS上可无错编译)

修改过一些带有编译错误问题的unp.h源码,可在CentOS的服务器上编译,不需要再修改。编译过程如下: tar -zxvf unpv13e.tar.gz rm -y unpv13e.tar.gz cd unpv13e cd lib make cd ../libfree make cd .. cp libunp.a /usr/lib cp lib/unp.h /usr/include cp config.h /usr/include 具体可参见: http://blog.csdn.net/a799581229/article/details/79085925

2018-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除