源码分析
文章平均质量分 82
mahuacai
从事大数据开发,数据平台搭建,有三年的工作经验
展开
-
Spark Shuffle 详解(1)
版本:1.6.2 不管是hadoop中map/reduce还是spark中各种算子,shuffle过程都是其中核心过程,shuffle的设计是否高效,基本确定了整个计算过程是否高效。 设计难点在于shuffle过程涉及到大数据的IO操作(包括本地临时文件IO和网络IO),以及可能存在的cpu密集型排序计算操作。 在spark1.6.2版本,spark针对大型数据有三种shuffle 机制,原创 2016-07-15 11:46:54 · 2737 阅读 · 1 评论 -
Spark Stage 的划分
想了解Shuffle 的处理流程,首先要了解Spark是如何划分Stage的。下面,让我们看看 Spark 是如何根据RDD 的依赖关系来划分Stage。 首先 我们必须要理解 Spark 中RDD的依赖关系. 1.Rdd的依赖关系: Rdd的依赖有两种: 1.宽依赖(Wide Dependency)原创 2016-07-15 17:23:09 · 6319 阅读 · 1 评论