博客专栏  >  云计算/大数据   >  Spark RDD算子详细流程解析附具体执行流程图

Spark RDD算子详细流程解析附具体执行流程图

详细介绍了Spark1.4.1中RDD的算子包括:action和transform,并且通过数据集流转图详细说明每个算子涉及的RDD的转化及Driver端的执行流程

关注
4 已关注
8篇博文
  • Spark算子执行流程详解之八

    36.zip 将2个rdd相同位置的元素组成KV对 /**  * Zips this RDD with another one, returning key-value pai...

    2017-03-02 12:18
    355
  • Spark算子执行流程详解之七

    31.union 将2个rdd合并在一起。 def union(other: RDD[T]): RDD[T] = withScope {   if (partitioner.isDefine...

    2017-03-02 11:36
    319
  • Spark算子执行流程详解之六

    26.coalesce coalesce顾名思义为合并,就是把多个分区的RDD合并成少量分区的RDD,这样可以减少任务调度的时间,但是请记住:合并之后不能保证结果RDD中的每个分区的记录数量是均衡的...

    2017-03-02 11:11
    536
  • Spark算子执行流程详解之五

    22.combineByKey   def combineByKey[C](createCombiner: V => C,     mergeValue: (C, V)...

    2017-03-02 10:42
    272
  • Spark算子执行流程详解之四

    17.map /**  * Return a new RDD by applying a function to all elements of this RDD.  */ ...

    2017-03-02 10:30
    457
  • Spark算子执行流程详解之三

    10.aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U) 用与聚合RDD中的元素,先使用seq...

    2017-03-02 10:21
    522
  • Spark算子执行流程详解之二

    4.count() def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 计算数据总量,每个分区各自计算自...

    2017-03-02 10:09
    456
  • Spark算子执行流程详解之一

    1.take(num:Int) 获取前num条记录。 def take(num: Int): Array[T] = withScope {   if (num == 0) {     ne...

    2017-03-02 09:55
    385
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部