spark内核
文章平均质量分 90
听风的蜗牛
专注hadoop,spark大数据,数据挖掘,机器学习。
展开
-
16.rdd 算子举例
由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller1. TransformationTransformation是通过转化针对已有的RDD创建出新的RDDmap(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,原创 2016-04-23 16:01:08 · 1014 阅读 · 0 评论 -
Spark 源码解析 : DAGScheduler中的DAG划分与提交
一、Spark 运行架构Spark 运行架构如下图:各个RDD之间存在着依赖关系,这些依赖关系形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG,进行Stage划分,划分的规则很简单,从后往前回溯,遇到窄依赖加入本stage,遇见宽依赖进行Stage切分。完成了Stage的划分,DAGScheduler基于每个Stage生成TaskSet,并将Ta原创 2016-07-20 09:31:17 · 6460 阅读 · 7 评论 -
Spark 源码解析:彻底理解TaskScheduler的任务提交和task最佳位置算法
上篇文章《 Spark 源码解析 : DAGScheduler中的DAG划分与提交》介绍了DAGScheduler的Stage划分算法。原创文章,转载请注明:转载自 听风居士博客(http://blog.csdn.net/zhouzx2010) 本文继续分析Stage被封装成TaskSet,并将TaskSet提交到集群的Executor执行的过程原创 2016-08-06 10:04:57 · 5481 阅读 · 0 评论 -
25.Spark Sort-Based Shuffle内幕彻底解密
一:为什么需要Sort-BasedShuffle?1, Shuffle一般包含两个阶段任务:第一部分:产生Shuffle数据的阶段(Map阶段,额外补充,需要实现ShuffleManager中的getWriter来写数据(数据可以通过BlockManager写到Memory,Disk,Tachyon等,例如想非常快的Shuffle,此时可以考虑把数据写在内存中,但是内存不稳定,所以可以考原创 2016-04-26 20:45:45 · 810 阅读 · 0 评论